邏輯回歸的損失函數(shù)及梯度 機(jī)器學(xué)習(xí)為什么會(huì)使用梯度下降法?
機(jī)器學(xué)習(xí)為什么會(huì)使用梯度下降法?另外,在神經(jīng)網(wǎng)絡(luò)(非凸問(wèn)題)的訓(xùn)練中,大多采用梯度下降法。梯度下降法和擬牛頓法可以用來(lái)訓(xùn)練logistic回歸(凸問(wèn)題)模型。在機(jī)器學(xué)習(xí)任務(wù)中,必須最小化損失函數(shù)L(θ
機(jī)器學(xué)習(xí)為什么會(huì)使用梯度下降法?
另外,在神經(jīng)網(wǎng)絡(luò)(非凸問(wèn)題)的訓(xùn)練中,大多采用梯度下降法。梯度下降法和擬牛頓法可以用來(lái)訓(xùn)練logistic回歸(凸問(wèn)題)模型。
在機(jī)器學(xué)習(xí)任務(wù)中,必須最小化損失函數(shù)L(θ)Lleft(thetaright)L(θ),其中θthetaθ是要求解的模型參數(shù)。梯度下降法和牛頓/擬牛頓法都是迭代法。梯度下降法是梯度法,而牛頓法/擬牛頓法是由二階Hessian矩陣的逆矩陣或偽逆矩陣求解的。
比較了梯度下降法和牛頓法。
現(xiàn)在最流行的機(jī)器學(xué)習(xí)模型,神經(jīng)網(wǎng)絡(luò)基本上有很多向量、矩陣、張量。從激活函數(shù)到損失函數(shù),從反向傳播到梯度下降,都是對(duì)這些向量、矩陣和張量的運(yùn)算和操作。
其他“傳統(tǒng)”機(jī)器學(xué)習(xí)算法也使用大量線性代數(shù)。例如,線性回歸與線性代數(shù)密切相關(guān)。
從線性代數(shù)的觀點(diǎn)來(lái)看,主成分分析是對(duì)協(xié)方差矩陣進(jìn)行對(duì)角化。
尤其是當(dāng)你讀論文或想更深入的時(shí)候,概率論的知識(shí)是非常有用的。
它包括邊緣概率、鏈?zhǔn)揭?guī)則、期望、貝葉斯推理、最大似然、最大后驗(yàn)概率、自信息、香農(nóng)熵、KL散度等。
神經(jīng)網(wǎng)絡(luò)非常講究“可微性”,因?yàn)榭晌⒛P涂梢杂锰荻认陆捣▋?yōu)化。梯度下降和導(dǎo)數(shù)是分不開(kāi)的。所以多元微積分也需要。另外,由于機(jī)器學(xué)習(xí)是以統(tǒng)計(jì)方法為基礎(chǔ)的,因此統(tǒng)計(jì)知識(shí)是必不可少的。但是,大多數(shù)理工科專(zhuān)業(yè)學(xué)生都應(yīng)該學(xué)過(guò)這兩部分內(nèi)容,所以這可能不屬于需要補(bǔ)充的內(nèi)容。
機(jī)器學(xué)習(xí)需要哪些數(shù)學(xué)基礎(chǔ)?
首先,我可以肯定地告訴你,是的!但也許問(wèn)題會(huì)出現(xiàn)。在機(jī)器學(xué)習(xí)算法中,很多算法采用梯度下降法。梯度下降法似乎是機(jī)器學(xué)習(xí)算法中一種通用的優(yōu)化算法。為什么不用呢?
其實(shí)正是因?yàn)樘荻认陆邓惴ㄊ且环N通用的優(yōu)化算法,所以它有自己的缺點(diǎn),否則就沒(méi)有其他算法存在的理由。那么梯度下降算法的缺點(diǎn)是什么呢?也就是說(shuō),它的效率相對(duì)較低,求解速度相對(duì)較慢。其求解速度和收斂性取決于步長(zhǎng)參數(shù)的合理設(shè)計(jì)。如果步長(zhǎng)太小,算法需要迭代太多次才能收斂;如果步長(zhǎng)太大,算法可能無(wú)法在最優(yōu)解附近收斂。
因此,一般選擇梯度下降作為機(jī)器學(xué)習(xí)算法的優(yōu)化方法,因?yàn)闄C(jī)器學(xué)習(xí)算法的目標(biāo)函數(shù)不容易求解:要么目標(biāo)函數(shù)不凸,要么目標(biāo)函數(shù)沒(méi)有解析解。
嶺回歸是一種非常簡(jiǎn)單的算法,它可以用正態(tài)方程直接求解模型的最優(yōu)參數(shù),而不用用梯度下降法來(lái)慢慢迭代求解。因此,梯度下降算法可以用來(lái)求解嶺回歸,但由于嶺回歸比較簡(jiǎn)單,且其目標(biāo)函數(shù)有解析解,所以沒(méi)有使用梯度下降算法。在這種情況下,梯度下降算法的速度不如常規(guī)方程。