14.決策樹碎碎念

屬性選擇

屬性的感覺就是最大限度的增加樣本的純度，并且不要產生產生樣本數少的分枝。

屬性選擇標準有信息增益（Information Gain）和Gini系數
信息增益作為標準時，選擇信息增益大的作為分裂點
Gini是一種不純度函數，衡量數據關于類別的純度，數據均勻分布于各個類別時，不純度就很大

大小規模合適的樹

樹停止生長的條件（最小劃分實例數，劃分閾值，最大樹深度）
對完全生長的樹進行剪枝（評估子樹，如去掉性能更好，則進行剪枝）

ID3

思想：選信息增益大的屬性建立分支，遞歸選取知道子樹只包含一個類別的數據

自頂向下的貪婪的搜索算法，構造出與訓練數據一致的決策樹
用信息增益作為屬性選擇的標準，使劃分后的數據集的信息熵最小

ID3的問題

只能處理屬性數據，無法處理連續型數據
屬性的每個取值都會產生一個對應分支，會有許多小的子集，過小的子集會導致統計特征不充分，使算法停止
信息增益在類別值多的屬性上計算結果，大于類別值少的屬性，導致算法天生偏向選擇分支多的屬性，會導致過度擬合

C4.5

能處理連續性和離散型屬性
能處理有缺失值的數據
信息增益作為決策樹屬性選擇標準
對生成樹進行剪枝處理
決策樹到規則自動生成

不同于ID3

C4.5不是直接衡量信息增益，是用的信息增益率來衡量屬性的
ID3中的信息增益是根據所屬類別（y）來計算的，C4.5以信息增益率為標準，引入分裂信息的概念，考慮了獲取增益的代價，克服了ID3偏心多屬性特征的缺點
分裂信息用來衡量屬性分裂數據的廣度和均勻，公式如下

Paste_Image.png

屬性值越多，分布越平均的分裂信息越大，對應的信息增益率則越小

對于連續值的求解

Paste_Image.png

處理缺失值，這個ID3也沒有

直接拋棄
平均數或者眾數
C4.5中用概率的方法，為每個可能的賦值都設置一個概率

剪枝

不用預剪枝是因為預剪枝對不同數據的表現很不一樣

后剪枝方法

從葉節點開始，檢查每個非葉節點
如果以某個葉節點（或其子節點中使用頻率最高的子節點），替換該非葉節點
整個決策樹的誤差率降低就剪去改節點

預剪枝方法

限制樹的最大深度
限制葉節點最小記錄數

C4.5后剪枝

針對每個節點，以其中的類別眾數作為預測類別
利用每個節點的錯誤率，根據假設正態分布對真實誤差進行估計

悲觀誤差剪枝

CART樹

改進ID3的3個方面

不純度計算用GINI指數，取最小最為分裂點，就是差異損失最大的點（Gini父-Gini子最大的）
特征雙化（towing），二元分類樹
輸出為離散時為分類樹，為連續時為回歸樹

特征雙化

構建二叉樹，雙化時盡量時2個類別的輸出差異性的和，保持最小，就是純度最大。

具體操作就是窮舉法，對每對都計算Gini系數（帶全局的權重），然后選擇Gini系數最大的呢一組，這種感覺就是選最不純的一組，用你的下限去和別的屬性競爭，以達到全局的最優

最后編輯于：2017.12.03 02:50:42

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發布，文章內容僅代表作者本人觀點，簡書系信息發布平臺，僅提供信息存儲服務。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 228,197評論 6贊 531
死咒
序言：濱河連續發生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發現死者居然都...
沈念sama閱讀 98,415評論 3贊 415
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 176,104評論 0贊 373
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 62,884評論 1贊 309
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 71,647評論 6贊 408
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發上，一...
開封第一講書人閱讀 55,130評論 1贊 323
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,208評論 3贊 441
雙鴛鴦連環套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 42,366評論 0贊 288
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發現了一具尸體，經...
沈念sama閱讀 48,887評論 1贊 334
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 40,737評論 3贊 354
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發現自己被綠了。大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 42,939評論 1贊 369
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,478評論 5贊 358
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發生泄漏。R本人自食惡果不足惜，卻給世界環境...
茶點故事閱讀 44,174評論 3贊 347
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 34,586評論 0贊 26
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 35,827評論 1贊 283
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 51,608評論 3贊 390
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 47,914評論 2贊 372

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

14.決策樹碎碎念

14.決策樹碎碎念

屬性選擇

大小規模合適的樹

ID3

ID3的問題

C4.5

不同于ID3

屬性值越多，分布越平均的分裂信息越大，對應的信息增益率則越小

處理缺失值，這個ID3也沒有

剪枝

后剪枝方法

預剪枝方法

C4.5后剪枝

CART樹

特征雙化

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

14.決策樹碎碎念

屬性選擇

大小規模合適的樹

ID3

ID3的問題

C4.5

不同于ID3

屬性值越多，分布越平均的分裂信息越大，對應的信息增益率則越小

處理缺失值，這個ID3也沒有

剪枝

后剪枝方法

預剪枝方法

C4.5后剪枝

CART樹

特征雙化

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频