cart決策樹算法例題 工業(yè)上有哪些實(shí)用的決策樹模型?
工業(yè)上有哪些實(shí)用的決策樹模型?樹模型(又稱決策樹或者樹結(jié)構(gòu)模型):基本思想和方差分析中的變異分解極為相似。目的(基本原則):將總研究樣本通過某些牲(自變量取值)分成數(shù)個(gè)相對(duì)同質(zhì)的子樣本。每一子樣本因變
工業(yè)上有哪些實(shí)用的決策樹模型?
樹模型(又稱決策樹或者樹結(jié)構(gòu)模型):基本思想和方差分析中的變異分解極為相似。
目的(基本原則):將總研究樣本通過某些牲(自變量取值)分成數(shù)個(gè)相對(duì)同質(zhì)的子樣本。每一子樣本因變量的取值高度一致,相應(yīng)的變異/雜質(zhì)盡量落在不同子樣本間。所有樹模型的算法都遵循這一基本原則。
不同樹模型差異:差異在于對(duì)變異/雜質(zhì)的定義不同。比如P值、方差、熵、Gini指數(shù)(基尼指數(shù))、Deviance等作為測量指標(biāo)。
樹模型分類:根據(jù)預(yù)測的因變量類型,樹結(jié)構(gòu)模型可以分為分類樹、回歸樹兩大類。
常用算法:
CHAID(卡方自交互偵測決策樹)—Chi-squared Automatic Interaction Detector
CRT(分類回歸樹)—Classification Regression Tree;
C5.0以信息熵的下降速度作為確定最佳分支變量和分割閥值的依據(jù)。面對(duì)數(shù)據(jù)遺漏和輸入字段很多的問題時(shí)非常穩(wěn)健。
QUEST:Quick、Unbiased、Efficient Statistical Tree的縮寫。
決策樹需要計(jì)算結(jié)點(diǎn)的純度來選擇最具顯著性的切分(split)。通常,CART以Gini,C5以信息增益(熵),CHAID以卡方。雖然存在這樣的差別,但他們樹形狀的不同更為重要一些。
C5起源于計(jì)算科學(xué)領(lǐng)域,講究小樣本上的重復(fù)測試比較(cross validation),進(jìn)一步地,C5會(huì)進(jìn)行規(guī)則(Rule Set)的概化以自動(dòng)產(chǎn)生更為簡潔的規(guī)則表達(dá)形式。犧牲一些精度來換取更好記的規(guī)則,對(duì)于業(yè)務(wù)人員來說無疑是值得的。