隨機(jī)森林為什么比決策樹(shù)好 隨機(jī)森林為什么隨著樹(shù)的數(shù)目增多,分類(lèi)準(zhǔn)確率可能會(huì)下降?
隨機(jī)森林為什么隨著樹(shù)的數(shù)目增多,分類(lèi)準(zhǔn)確率可能會(huì)下降?隨機(jī)森林是一種集成分類(lèi)器。分析了影響隨機(jī)林性能的參數(shù)。結(jié)果表明,隨機(jī)林中的樹(shù)數(shù)對(duì)隨機(jī)林的性能有重要影響。研究總結(jié)了林木株數(shù)的確定方法和隨機(jī)森林經(jīng)營(yíng)
隨機(jī)森林為什么隨著樹(shù)的數(shù)目增多,分類(lèi)準(zhǔn)確率可能會(huì)下降?
隨機(jī)森林是一種集成分類(lèi)器。分析了影響隨機(jī)林性能的參數(shù)。結(jié)果表明,隨機(jī)林中的樹(shù)數(shù)對(duì)隨機(jī)林的性能有重要影響。研究總結(jié)了林木株數(shù)的確定方法和隨機(jī)森林經(jīng)營(yíng)指數(shù)的評(píng)價(jià)方法。以分類(lèi)精度為評(píng)價(jià)方法,利用UCI數(shù)據(jù)集分析了隨機(jī)森林中決策樹(shù)數(shù)目與數(shù)據(jù)集之間的關(guān)系。實(shí)驗(yàn)結(jié)果表明,對(duì)于大多數(shù)數(shù)據(jù)集,當(dāng)樹(shù)數(shù)為100時(shí),分類(lèi)精度可以滿足要求。實(shí)驗(yàn)結(jié)果表明,隨機(jī)森林的分類(lèi)性能與支持向量機(jī)相當(dāng)。
adaboost隨機(jī)森林什么關(guān)系?
Random forest將對(duì)變量進(jìn)行子采樣,例如,變量為p。Random forest將每次隨機(jī)提取log p變量以擬合決策樹(shù)。顯然,隨機(jī)森林適合于大磷比的情況。否則,logp可能為1.2。這種情況毫無(wú)意義。AdaBoost與gbdt非常相似,可以理解前者是后者的特例。適合p相對(duì)較小時(shí)使用。當(dāng)然,這兩種方法都只適用于N>>P情形,即樣本攜帶足夠的信息來(lái)擬合非線性關(guān)系。也就是說(shuō),隨機(jī)森林不適合于P特別大的情況,如果P>>N,則以Lasso為首的懲罰回歸為首選工具。
神經(jīng)網(wǎng)絡(luò)能否代替決策樹(shù)算法?
主旨:討論算法“哪個(gè)更好,哪個(gè)更差,是否可以替代”是一個(gè)偽命題。類(lèi)似的C/C能代替XXX語(yǔ)言嗎?。
首先,xgboost、gbdt、random forest、FM甚至組合LT技術(shù)路線經(jīng)常出現(xiàn)在kaggle競(jìng)賽的榜首,而基于DNN的路線很少出現(xiàn)。這樣的現(xiàn)象只意味著基于當(dāng)時(shí)的條件(玩家、問(wèn)題等),這種方案已經(jīng)能夠比較好地解決目前的問(wèn)題。正如imagnet和其他傳統(tǒng)算法不會(huì)簡(jiǎn)單地依靠人工特征工程來(lái)贏得冠軍一樣(雖然在理論上是可行的,但何必費(fèi)心呢?)。
其次,如果從模型容量的角度來(lái)看,神經(jīng)網(wǎng)絡(luò)(基于合理設(shè)置)可以在一定的準(zhǔn)則下擬合任何函數(shù),自然可以從容量上擬合決策樹(shù),在實(shí)際問(wèn)題中可以替代。因?yàn)槿萘繑M合的理論證明并沒(méi)有告訴你如何設(shè)計(jì)一個(gè)合理的給定目標(biāo)函數(shù)的神經(jīng)網(wǎng)絡(luò)。類(lèi)似于香農(nóng)的三個(gè)存在定理。線性模型(如LR)能代替決策樹(shù)等所有其他算法嗎?理論上(我不會(huì)證明)數(shù)學(xué)中的各種非線性映射變換應(yīng)該能夠?qū)⒏鞣N非線性問(wèn)題投射到一個(gè)神奇的空間中,在這個(gè)空間中,原來(lái)的問(wèn)題可以通過(guò)線性模型來(lái)求解
回到主要問(wèn)題本身(哈哈哈):
1。神經(jīng)網(wǎng)絡(luò)能否取代決策樹(shù)判斷法:它能否以較低的成本更好地解決當(dāng)前的問(wèn)題?如果可以的話,可以是2。如何更換:找到一個(gè)成本較低的神經(jīng)網(wǎng)絡(luò);
3。什么樣的結(jié)構(gòu):一個(gè)能以低成本更好地解決當(dāng)前問(wèn)題的網(wǎng)絡(luò)結(jié)構(gòu);
既然使用神經(jīng)網(wǎng)絡(luò)也可以解決分類(lèi)問(wèn)題,那SVM、決策樹(shù)這些算法還有什么意義呢?
這取決于數(shù)據(jù)量和樣本數(shù)。不同的樣本量和特征數(shù)據(jù)適合不同的算法。像神經(jīng)網(wǎng)絡(luò)這樣的深度學(xué)習(xí)算法需要訓(xùn)練大量的數(shù)據(jù)集來(lái)建立更好的預(yù)測(cè)模型。許多大型互聯(lián)網(wǎng)公司更喜歡深度學(xué)習(xí)算法,因?yàn)樗麄儷@得的用戶數(shù)據(jù)是數(shù)以億計(jì)的海量數(shù)據(jù),這更適合于卷積神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)算法。
如果樣本數(shù)量較少,則更適合使用SVM、決策樹(shù)和其他機(jī)器學(xué)習(xí)算法。如果你有一個(gè)大的數(shù)據(jù)集,你可以考慮使用卷積神經(jīng)網(wǎng)絡(luò)和其他深度學(xué)習(xí)算法。
以下是一個(gè)圖表,用于說(shuō)明根據(jù)樣本數(shù)量和數(shù)據(jù)集大小選擇的任何機(jī)器學(xué)習(xí)算法。
如果你認(rèn)為它對(duì)你有幫助,你可以多表?yè)P(yáng),也可以關(guān)注它。謝謝您!tiktokwai
AI是目前互聯(lián)網(wǎng)應(yīng)用比較好的方向,所以需求比較大。推薦算法的地位還是很好的。推薦算法中有很多方向,如信息流推薦(今日頭條)、電子商務(wù)推薦(淘寶)、視頻推送(愛(ài)奇藝、抖動(dòng)、快手等)、廣告推薦(馮超)等,這些業(yè)務(wù)幾乎是每個(gè)公司的收入。最好的部分,所以備受關(guān)注,因此,推薦算法工程師的前景是好的。