logistic回歸梯度下降法 機(jī)器學(xué)習(xí)為什么會(huì)使用梯度下降法?
機(jī)器學(xué)習(xí)為什么會(huì)使用梯度下降法?另外,在神經(jīng)網(wǎng)絡(luò)(非凸問題)的訓(xùn)練中,大多采用梯度下降法。梯度下降法和擬牛頓法可以用來訓(xùn)練logistic回歸(凸問題)模型。在機(jī)器學(xué)習(xí)任務(wù)中,必須最小化損失函數(shù)L(θ
機(jī)器學(xué)習(xí)為什么會(huì)使用梯度下降法?
另外,在神經(jīng)網(wǎng)絡(luò)(非凸問題)的訓(xùn)練中,大多采用梯度下降法。梯度下降法和擬牛頓法可以用來訓(xùn)練logistic回歸(凸問題)模型。
在機(jī)器學(xué)習(xí)任務(wù)中,必須最小化損失函數(shù)L(θ)Lleft(thetaright)L(θ),其中θthetaθ是要求解的模型參數(shù)。梯度下降法和牛頓/擬牛頓法都是迭代法。梯度下降法是梯度法,而牛頓法/擬牛頓法是由二階Hessian矩陣的逆矩陣或偽逆矩陣求解的。
在機(jī)器學(xué)習(xí)的第一課中,沒有邏輯回歸的解析解(至少目前還沒有找到,只有在二進(jìn)制類的情況下,更不用說神經(jīng)網(wǎng)絡(luò)了)。
即使有解析解,KKT條件也只是優(yōu)化非凸函數(shù)的必要條件和不充分條件,因?yàn)樵诖蠖鄶?shù)情況下,神經(jīng)網(wǎng)絡(luò)的損失函數(shù)是非凸的。
[1]最重要的是線性代數(shù)和概率論。
現(xiàn)在最流行的機(jī)器學(xué)習(xí)模型,神經(jīng)網(wǎng)絡(luò)基本上有很多向量、矩陣、張量。從激活函數(shù)到損失函數(shù),從反向傳播到梯度下降,都是對這些向量、矩陣和張量的運(yùn)算和操作。
其他“傳統(tǒng)”機(jī)器學(xué)習(xí)算法也使用大量線性代數(shù)。例如,線性回歸與線性代數(shù)密切相關(guān)。
從代數(shù)的角度來看,協(xié)方差矩陣是對角化的。
尤其是當(dāng)你讀論文或想更深入的時(shí)候,概率論的知識(shí)是非常有用的。
它包括邊緣概率、鏈?zhǔn)揭?guī)則、期望、貝葉斯推理、最大似然、最大后驗(yàn)概率、自信息、香農(nóng)熵、KL散度等。
神經(jīng)網(wǎng)絡(luò)非常講究“可微性”,因?yàn)榭晌⒛P涂梢杂锰荻认陆捣▋?yōu)化。梯度下降和導(dǎo)數(shù)是分不開的。所以多元微積分也需要。另外,由于機(jī)器學(xué)習(xí)是以統(tǒng)計(jì)方法為基礎(chǔ)的,因此統(tǒng)計(jì)知識(shí)是必不可少的。但是,大多數(shù)理工科專業(yè)學(xué)生都應(yīng)該學(xué)過這兩部分內(nèi)容,所以這可能不屬于需要補(bǔ)充的內(nèi)容。
邏輯回歸為何不直接讓梯度等于0?
機(jī)器學(xué)習(xí)需要哪些數(shù)學(xué)基礎(chǔ)?
1. 工業(yè)中的大型模型基本上都是logistic區(qū)域和線性區(qū)域,因此SGD和lbfgs的理解是非常重要的,并行推導(dǎo)對于理解LR是如何并行的是非常重要的
2。其次,常用的機(jī)器學(xué)習(xí)算法,如SVM、gbdt、KNN等,應(yīng)該了解其原理,能夠在壓力下快速響應(yīng)。算法的優(yōu)缺點(diǎn)和適應(yīng)場景應(yīng)基本清晰
3基本算法應(yīng)熟練掌握數(shù)據(jù)結(jié)構(gòu)、鏈表二叉樹、快速行合并、動(dòng)態(tài)返回等