深度學(xué)習(xí) 梯度下降法的步長到底怎么確定?
梯度下降法的步長到底怎么確定?梯度下降法的搜索方向,顧名思義就是梯度方向,即當(dāng)前點(diǎn)所在地形的最陡下降方向(圖片中只有兩個方向)。步長的選擇取決于函數(shù)的性質(zhì)。一般來說,只要步長足夠小,函數(shù)的值就不會每次
梯度下降法的步長到底怎么確定?
梯度下降法的搜索方向,顧名思義就是梯度方向,即當(dāng)前點(diǎn)所在地形的最陡下降方向(圖片中只有兩個方向)。步長的選擇取決于函數(shù)的性質(zhì)。一般來說,只要步長足夠小,函數(shù)的值就不會每次都增加。另外,如果函數(shù)是可微的,且函數(shù)的梯度滿足Lipschitz連續(xù)性(常數(shù)為L),如果步長小于,則每次迭代的函數(shù)值都不會增加,收斂到梯度為0的點(diǎn)。也可以使用linesearch來確定步長。實際上,linesearch的基本目的是確保函數(shù)的值減少(或不增加)。
2.2. 如果函數(shù)是凸的,它最終會達(dá)到最佳。
梯度下降法和隨機(jī)梯度下降法的區(qū)別?
梯度下降算法是一個寬泛的概念,意思是:當(dāng)你優(yōu)化一個函數(shù)/分類器時,如何減少它的誤差?你不妨選擇梯度下降的方向,這很可能是最好的方向。既然你知道方向是梯度,你要走多久?答案是:隨機(jī)的。因此,梯度下降算法包括隨機(jī)梯度下降算法。