機器學習分類算法中怎樣處理非平衡數據問題 (更新中)


Abstract

非平衡數據集是一個在現實世界應用中經常發現的一個問題,它可能會給機器學習算法中的分類表現帶來嚴重的負面影響。目前有很多的嘗試來處理非平衡數據的分類。在這篇文章中,我們同時從數據層面算法層面給出一些已經存在的用來解決非平衡數據問題的簡單綜述。盡管處理非平衡數據問題的一個通常的做法是通過人為的方式,比如超采樣或者降采樣,來重新平衡數據,一些研究者證實例如修改的支持向量機,基于粗糙集的面向少數類的規則學習方法,敏感代價分類器等在非平衡數據集上面也表現良好。我們觀察到目前在非平衡數據問題上面的研究正趨向于使用混合算法。

關鍵詞:敏感代價學習,非平衡數據集,修改的SVM,超采樣,降采樣

1. Introduction

如果一個數據集中某一個類別的樣本遠遠多余其他的類別,那么我們就稱這種數據為非平衡數據。當數據中至少一個類別代表了訓練樣例中很少的數量(稱為少數類),而其他類別組成了大多數時,數據就會失衡。在這種狀況下,分類器能夠在多數類上面有很好的準確率,但是在少數類上準確率卻很糟糕,主要是因為更大的多數類在傳統訓練標準上面的影響。很多原始的分類算法追求最小化錯誤率:不準確預測類別標記的百分比。他們往往忽視了不同種類的分類錯誤之間的不同。特別地,他們暗自的假定了所有的分類錯誤都有著相同的代價。

在很多現實世界的應用中,這種假定是不正確的。不同分類錯誤之間的差異可能是相當大的。例如,在癌癥的醫療診斷中,如果我們把有癌癥視為正類別,無癌癥(健康)視為負類別,那么漏診(病人本身得了癌癥,但是卻預測其沒得,這也被稱為“假陰性”,false negtive)的代價要比誤診(假陽性,false positive)嚴重得多。

病人可能失去他的生命僅僅是因為延誤了最佳的診斷和治療階段。同樣地,如果攜帶炸彈視為正類別,那么漏檢掉一個攜帶炸彈上飛機的恐怖分子要比搜查一個無辜的人代價大得多。

非平衡數據問題在現實世界的很多應用中都有出現,例如文本歸類,故障監測,欺騙檢測,衛星圖像中的油田漏油監測,毒理學,文化建模,醫療診斷等[1]。很多關于非平衡數據集的研究論文通常都認為,由于不相等的類別分配,已經存在的分類器的表現都偏向于多數類。現存分類算法在非平衡數據集上表現糟糕的原因主要有這幾點:1.它們是準確率驅動的,它們的目標是最小化整體的錯誤率,這樣一來少數類在其中起到的作用就很小了。2.它們假設數據中所有的類別都有同等的分配。3.它們同時假設不同類別分類錯誤的代價是相同的[2]。由于數據的不平衡,數據挖掘學習算法往往產生退化的模型,它們并沒有把少數類考慮進去,因為大多數數據挖掘算法都是假設數據是平衡的。

很多非平衡數據分類問題的解決方案之前都有人同時從數據層面和算法層面上提出過[3]。在數據層面,這些解決方法包括多種不同形式的重采樣,例如隨機超采樣放回,隨機降采樣,直接超采樣(沒有新的樣例產生,但是樣例被替換的選擇是知道的,而不是隨機的),直接降采樣(同樣樣例被去除的選擇是知道的),新樣本迭代方式被告知的超采樣以及以上所有技術的結合。在算法層面,解決方法包括調整不同類別的代價以反向的削減類別不平衡影響,調整樹的葉節點的概率評估(當使用決策樹時),調整決策閾值,基于識別(從一個類中學習)而不是基于辨別(兩種類別)的學習。

解決非平衡數據最普遍的技術包括重新調整訓練接,使用代價敏感的分類器和雪球法。最近,不少在非平衡數據上有很好表現的方法被提出來了。這些方法包括修改的SVMs,K臨近法(KNN),神經網絡,遺傳編程,基于粗糙集的算法,概率決策樹和機器學習方法。下一節將介紹各種方法的細節。

2. Sampling Methods

一種簡單的數據層面的平衡不同類別的方法就是對原始數據集進行重采樣,要么對少數類進行超采樣,或者對多數類進行降采樣,直到不同類別的數據差不多是相同的為止。這兩種策略能夠被用在任何學習系統中,因為它們相當于是一種預處理階段,允許學習系統來接收訓練實例就好像他們是屬于一個已經平衡的數據集。這樣一來,系統由于每一類別不同比例的訓練樣本而帶來的對于多數類的任何偏向都能夠被削減和抑制了。

Hulse等人[4]提出重采樣方法的作用取決于很多的因素……(待更新)


Reference


(注:感謝您的閱讀,希望本文對您有所幫助。如果覺得不錯歡迎分享轉載,但請先點擊 這里 獲取授權。本文由 版權印 提供保護,禁止任何形式的未授權違規轉載,謝謝!)

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,401評論 6 531
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,011評論 3 413
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 175,263評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,543評論 1 307
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,323評論 6 404
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 54,874評論 1 321
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 42,968評論 3 439
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,095評論 0 286
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,605評論 1 331
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,551評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,720評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,242評論 5 355
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 43,961評論 3 345
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,358評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,612評論 1 280
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,330評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,690評論 2 370

推薦閱讀更多精彩內容