1.決策樹的過擬合問題
決策樹生成算法遞歸地產(chǎn)生決策樹,直到不能繼續(xù)下去為止。通過這樣的方式產(chǎn)生的決策樹容易產(chǎn)生過擬合問題。過擬合的原因在于學(xué)習(xí)時(shí)過多地考慮如何提高對(duì)訓(xùn)練數(shù)據(jù)的正確分類,從而構(gòu)建出過于復(fù)雜的決策樹。
2.什么是決策樹的剪枝?
在決策樹學(xué)習(xí)過程中將已生成的樹進(jìn)行簡(jiǎn)化的過程稱為剪枝(Pruning)。具體地,剪枝從已經(jīng)生成的樹上裁掉一些子樹或葉節(jié)點(diǎn),并將其根節(jié)點(diǎn)或父節(jié)點(diǎn)作為新的葉節(jié)點(diǎn),從而簡(jiǎn)化分類樹模型。
3.一種簡(jiǎn)單的決策樹學(xué)習(xí)的剪枝算法
決策樹的剪枝往往通過極小化決策樹整體的損失函數(shù)(Loss Function)或者 代價(jià)函數(shù)(Cost function)來(lái)實(shí)現(xiàn)。
CART 算法
分類與回歸樹模型(CART)是應(yīng)用廣泛的的決策樹學(xué)習(xí)方法。CART 同樣由特征選擇、樹的生成以及樹的剪枝組成,既可以用于樹的分類,也可以用于回歸。