keras自定義損失函數(shù) 在訓練LSTM的時候使用除了Tanh/Sigmoid以外的激活函數(shù)效果都很差,是為什么?
在訓練LSTM的時候使用除了Tanh/Sigmoid以外的激活函數(shù)效果都很差,是為什么?查了下網(wǎng)上的相關資料和信息,LSTM 只能用 Tanh /Sigmoid,這是因為 gate 的開關只能是開和
在訓練LSTM的時候使用除了Tanh/Sigmoid以外的激活函數(shù)效果都很差,是為什么?
查了下網(wǎng)上的相關資料和信息,LSTM 只能用 Tanh /Sigmoid,這是因為 gate 的開關只能是開和關,就是記住跟忘記,添加記憶跟不添加記憶,LSTM里使用的Sigmoid的地方都是門,它的輸出必須在0.1之間,所以relu肯定不行的
elliotsig這個也很難飽和的,LSTM應該需要飽和的門來記住或忘記信息,不飽和的門會使得以前和現(xiàn)在的記憶一直在重復疊加,那樣就會造成記憶錯亂
為什么要使用relu激活函數(shù)?
增加網(wǎng)絡的非線性能力,從而擬合更多的非線性過程。ReLU在一定程度上能夠防止梯度消失,但防止梯度消失不是用它的主要原因,主要原因是求導數(shù)簡單。一定程度是指,右端的不會趨近于飽和,求導數(shù)時,導數(shù)不為零,從而梯度不消失,但左端問題依然存在,一樣掉進去梯度也會消失。所以出現(xiàn)很多改進的ReLU。