AdaBoost元算法

利用AdaBoost(adaptive boosting自適應(yīng)提升)元算法提高分類性能

本節(jié)內(nèi)容:組合相似的分類器來提高分類性能、應(yīng)用AdaBoost算法、處理非均衡分類問題

元算法是對其他算法進(jìn)行組合的一種方式。莫些人認(rèn)為AdaBoost是最好的監(jiān)督學(xué)習(xí)的方法,所以該方法是機(jī)器學(xué)習(xí)工具箱中最強(qiáng)力的工具之一。

將不同的分類器組合起來,這種組合結(jié)果則被稱為集成方法(ensemble method)或者元算法(meta-algorithm)。

優(yōu)點(diǎn):泛化錯(cuò)誤率低,易編碼,可以應(yīng)用在大部分分類器上,無參數(shù)調(diào)整。

缺點(diǎn):對離群點(diǎn)敏感

適用數(shù)據(jù)類型:數(shù)值型和標(biāo)稱型數(shù)據(jù)

bagging:基于數(shù)據(jù)隨機(jī)重抽樣的分類器構(gòu)建方法

自舉匯聚法(bootstrap aggregating),也成bagging方法,是在原始數(shù)據(jù)集選擇S次后得到S個(gè)新數(shù)據(jù)集的一種技術(shù)。新數(shù)據(jù)集和原始數(shù)據(jù)集的大小相等。每個(gè)數(shù)據(jù)集都是通過在原始數(shù)據(jù)集中隨機(jī)選擇一個(gè)樣本進(jìn)行替換而得到的。

在S個(gè)數(shù)據(jù)集建好之后,將莫個(gè)學(xué)習(xí)算法分別作用于每個(gè)數(shù)據(jù)集就得到了S個(gè)分類器。當(dāng)我們對新數(shù)據(jù)進(jìn)行分類時(shí),就可以應(yīng)用這個(gè)S個(gè)分類器進(jìn)行分類。與此同時(shí),選擇分類器投票結(jié)果中最多的類別作為最后的分類結(jié)果。

boosting

是一種與bagging很類似的技術(shù)。但是在前者當(dāng)中,不同的分類器是通過串行訓(xùn)練而獲得的,每個(gè)新分類器都根據(jù)已訓(xùn)練出的分類器的性能來進(jìn)行訓(xùn)練。boosting是通過集中關(guān)注被已有分類器錯(cuò)分的那些數(shù)據(jù)來獲得新的分類器。

由于boosting分類的結(jié)果是基于所有分類器的加權(quán)求和結(jié)果的,因此boosting與bagging不太一樣。

bagging中的分類器權(quán)重是相等的,而boosting中的分類器權(quán)重并不相等,每個(gè)權(quán)重代表的是其對應(yīng)分類器在上一輪迭代中的成功度。

boosting方法有多個(gè)版本,本次只關(guān)注最流行的AdaBoost

AdaBoost其運(yùn)行過程如下:訓(xùn)練數(shù)據(jù)中的每個(gè)樣本,并賦予其一個(gè)權(quán)重,這些權(quán)重構(gòu)成了向量D。一開始,這些權(quán)重都初始化成相等值。首先在訓(xùn)練數(shù)據(jù)上訓(xùn)練出一個(gè)弱分類器并計(jì)算該分類器的錯(cuò)誤率,然后在同一數(shù)據(jù)集上再次訓(xùn)練弱分類器。在分類器的第二次訓(xùn)練當(dāng)中,將會重新調(diào)整每個(gè)樣本的權(quán)重,其中第一次分對的樣本的權(quán)重將會降低,而第一次分錯(cuò)的樣本的權(quán)重將會提高。為了從所有弱分類器中得到最終的分類結(jié)果,AdaBoost為每個(gè)分類器都分配了一個(gè)權(quán)重值alpha,這些alpha值是基于每個(gè)弱分類器的錯(cuò)誤率進(jìn)行計(jì)算的。

alpha計(jì)算公式
AdaBoost算法流程圖

左邊是數(shù)據(jù)集,其中直方圖的不同寬度表示每個(gè)樣例上的不同權(quán)重。在經(jīng)過一個(gè)分類器之后,加權(quán)的預(yù)測結(jié)果會通過三角形中的alpha值進(jìn)行加權(quán)。每個(gè)三角形中輸出的加權(quán)結(jié)果在圓形中求和,從而得到最終的輸出結(jié)果

計(jì)算出alpha值之后,對權(quán)重向量D進(jìn)行更新。

在計(jì)算出D之后,AdaBoost又開始進(jìn)入下一輪迭代。AdaBoost算法會不斷地重復(fù)訓(xùn)練和調(diào)整權(quán)重的過程,直到訓(xùn)練錯(cuò)誤率為0或者弱分類的數(shù)目達(dá)到用戶的指定值為止。

單層決策樹(decision stump,也稱決策樹樁)是一種簡單的決策樹。僅基于單個(gè)特征來做決策。這棵樹只有一次分裂過程,因此它實(shí)際上就是一個(gè)樹樁。


最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,818評論 6 531
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 98,185評論 3 414
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 175,656評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,647評論 1 309
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 71,446評論 6 405
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 54,951評論 1 321
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,041評論 3 440
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 42,189評論 0 287
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 48,718評論 1 333
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 40,602評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 42,800評論 1 369
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,316評論 5 358
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 44,045評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,419評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,671評論 1 281
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 51,420評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 47,755評論 2 371

推薦閱讀更多精彩內(nèi)容