P156 Leaky ReLU

ReLUの改良版である。

f(x)=max(αx, x)

・αは0.01など小さい定数を表す
・ReLUはx<0のときに勾配が消えてしまうので、学習が不安定になり得るという問題があったが、LReLUはx<0でも学習が進むので、ReLUよりも効果的な活性化関数として期待された。しかし、実際には効果が出ないときもある。また、どのようなときに効果が出るのかについてはっきり分かっておらず、最初に提案した文献では効果はないと言及していたりもする。

詳解 ディープラーニング ~TensorFlow・Kerasによる時系列データ処理~

詳解 ディープラーニング ~TensorFlow・Kerasによる時系列データ処理~