簡書:決策樹會有哪些特性?
知乎:決策樹是如何處理不完整數據的?
1. 連續值如何劃分?
- C4.5:Information Gain (Ratio) based Threshold
- CART:遍歷所有輸入變量j 和切分點s,根據最小化平方誤差準則選??;
2. 是否能夠處理Missing值? 如果能, 是如何處理的?
- 不能處理: --
- 插值法(Imputation): QUEST, CRUISE
- 替代法(Alternate/Surrogate Splits):CART, CRUISE
- 缺失值單獨分支(Missing value branch):CHAID, GUIDE
- 概率權重(Probability weights): C4.5
3.決策樹是如何處理不完整數據的?
- 采用拋棄缺失值
拋棄極少量的缺失值的樣本對決策樹的創建影響不是太大。但是如果屬性缺失值較多或是關鍵屬性值缺失,創建的決策樹將是不完全的,同時可能給用戶造成知識上的大量錯誤信息,所以拋棄缺失值一般不采用。只有在數據庫具有極少量的缺失值同時缺失值不是關鍵的屬性值時,且為了加快創建決策樹的速度,才采用拋棄屬性缺失值的方式創建決策樹。 - 補充缺失值
缺失值較少時按照我們上面的補充規則是可行的。但如果數據庫的數據較大,缺失值較多(當然,這樣獲取的數據庫在現實中使用的意義已不大,同時在信息獲取方面基本不會出現這樣的數據庫),這樣根據填充后的數據庫創建的決策樹可能和根據正確值創建的決策樹有很大變化。 - 概率化缺失值
對缺失值的樣本賦予該屬性所有屬性值的概率分布,即將缺失值按照其所在屬性已知值的相對概率分布來創建決策樹。用系數F進行合理的修正計算的信息量,F=數據庫中缺失值所在的屬性值樣本數量去掉缺失值樣本數量/數據庫中樣本數量的總和,即F表示所給屬性具有已知值樣本的概率。 - 缺失值單獨分支