欠擬合與過(guò)擬合的概念 機(jī)器學(xué)習(xí)需要哪些數(shù)學(xué)基礎(chǔ)?
機(jī)器學(xué)習(xí)需要哪些數(shù)學(xué)基礎(chǔ)?主要是線性代數(shù)和概率論?,F(xiàn)在最流行的機(jī)器學(xué)習(xí)模型,神經(jīng)網(wǎng)絡(luò)基本上有很多向量、矩陣、張量。從激活函數(shù)到損失函數(shù),從反向傳播到梯度下降,都是對(duì)這些向量、矩陣和張量的運(yùn)算和操作。其
機(jī)器學(xué)習(xí)需要哪些數(shù)學(xué)基礎(chǔ)?
主要是線性代數(shù)和概率論。
現(xiàn)在最流行的機(jī)器學(xué)習(xí)模型,神經(jīng)網(wǎng)絡(luò)基本上有很多向量、矩陣、張量。從激活函數(shù)到損失函數(shù),從反向傳播到梯度下降,都是對(duì)這些向量、矩陣和張量的運(yùn)算和操作。
其他“傳統(tǒng)”機(jī)器學(xué)習(xí)算法也使用大量線性代數(shù)。例如,線性回歸與線性代數(shù)密切相關(guān)。
從線性代數(shù)的觀點(diǎn)來(lái)看,主成分分析是對(duì)協(xié)方差矩陣進(jìn)行對(duì)角化。
尤其是當(dāng)你讀論文或想更深入的時(shí)候,概率論的知識(shí)是非常有用的。
它包括邊緣概率、鏈?zhǔn)揭?guī)則、期望、貝葉斯推理、最大似然、最大后驗(yàn)概率、自信息、香農(nóng)熵、KL散度等。
神經(jīng)網(wǎng)絡(luò)非常講究“可微性”,因?yàn)榭晌⒛P涂梢杂锰荻认陆捣▋?yōu)化。梯度下降和導(dǎo)數(shù)是分不開的。所以多元微積分也需要。另外,由于機(jī)器學(xué)習(xí)是以統(tǒng)計(jì)方法為基礎(chǔ)的,因此統(tǒng)計(jì)知識(shí)是必不可少的。但是,大多數(shù)理工科專業(yè)學(xué)生都應(yīng)該學(xué)過(guò)這兩部分內(nèi)容,所以這可能不屬于需要補(bǔ)充的內(nèi)容。
可以通過(guò)直接減少hidden layer、hidden unit而不是加正則化來(lái)解決神經(jīng)網(wǎng)絡(luò)過(guò)擬合嗎?
簡(jiǎn)單的答案是肯定的。復(fù)雜的答案是不確定的(見下文)。
這個(gè)概念。
(圖片作者:chabacano,許可證:CC by sa 4.0)
從圖像中可以明顯看出,過(guò)度擬合的曲線過(guò)于曲折(復(fù)雜),對(duì)現(xiàn)有數(shù)據(jù)擬合得非常好,但它不能很好地描述數(shù)據(jù)的規(guī)律,因此面對(duì)新數(shù)據(jù),我們不得不停下來(lái)。
從上面我們得到一個(gè)直覺,過(guò)度擬合的模型往往比正確的模型更復(fù)雜。
。您所說(shuō)的“直接減少隱藏層和隱藏單元的數(shù)量”使網(wǎng)絡(luò)更薄、更窄正是簡(jiǎn)化模型的方法。這個(gè)想法沒有問(wèn)題。
但是,我們可能必須嘗試找出它是否有效。因?yàn)椋话銇?lái)說(shuō),更復(fù)雜的網(wǎng)絡(luò)可能更有表現(xiàn)力。
一般來(lái)說(shuō),神經(jīng)網(wǎng)絡(luò)仍然是一個(gè)黑匣子。有時(shí),正則化的效果更好,有時(shí)則不然。一些問(wèn)題可能是復(fù)雜的網(wǎng)絡(luò)工作得很好,另一些問(wèn)題可能是深度和狹窄的網(wǎng)絡(luò)工作得很好,另一些問(wèn)題可能是薄而寬的網(wǎng)絡(luò)工作得很好,或者一些問(wèn)題可能是簡(jiǎn)單的網(wǎng)絡(luò)工作得很好。
具體來(lái)說(shuō),為了解決過(guò)擬合問(wèn)題,除了簡(jiǎn)化模型(即您稱之為“直接減少隱藏層、隱藏層、隱藏層”)外,還存在漏項(xiàng)(在某種意義上,我們可以看到模型的某些部分由于簡(jiǎn)化模型的繞道而無(wú)法工作),以及人為增加稀疏性限制(稀疏性和簡(jiǎn)化之間存在模糊關(guān)系)或盡快停止訓(xùn)練。