keras自定義損失函數(shù) 在訓(xùn)練LSTM的時(shí)候使用除了Tanh/Sigmoid以外的激活函數(shù)效果都很差,是為什么?
在訓(xùn)練LSTM的時(shí)候使用除了Tanh/Sigmoid以外的激活函數(shù)效果都很差,是為什么?查了下網(wǎng)上的相關(guān)資料和信息,LSTM 只能用 Tanh /Sigmoid,這是因?yàn)?gate 的開(kāi)關(guān)只能是開(kāi)和
在訓(xùn)練LSTM的時(shí)候使用除了Tanh/Sigmoid以外的激活函數(shù)效果都很差,是為什么?
查了下網(wǎng)上的相關(guān)資料和信息,LSTM 只能用 Tanh /Sigmoid,這是因?yàn)?gate 的開(kāi)關(guān)只能是開(kāi)和關(guān),就是記住跟忘記,添加記憶跟不添加記憶,LSTM里使用的Sigmoid的地方都是門,它的輸出必須在0.1之間,所以relu肯定不行的
elliotsig這個(gè)也很難飽和的,LSTM應(yīng)該需要飽和的門來(lái)記住或忘記信息,不飽和的門會(huì)使得以前和現(xiàn)在的記憶一直在重復(fù)疊加,那樣就會(huì)造成記憶錯(cuò)亂
為什么要使用relu激活函數(shù)?
增加網(wǎng)絡(luò)的非線性能力,從而擬合更多的非線性過(guò)程。ReLU在一定程度上能夠防止梯度消失,但防止梯度消失不是用它的主要原因,主要原因是求導(dǎo)數(shù)簡(jiǎn)單。一定程度是指,右端的不會(huì)趨近于飽和,求導(dǎo)數(shù)時(shí),導(dǎo)數(shù)不為零,從而梯度不消失,但左端問(wèn)題依然存在,一樣掉進(jìn)去梯度也會(huì)消失。所以出現(xiàn)很多改進(jìn)的ReLU。