不平衡數據-SMOTE綜述【SMOTE合成采樣系列】

cover

引言

在機器學習中,使用常用算法進行分類時,如:邏輯回歸、決策樹、支持向量機、隨機森林等,都假設數據集是平衡的,即:不同類別的數據在數量和質量上都是同等的。

然而,真實世界中大多數數據并不滿足該要求,如:銀行信用系統中,不守信用的客戶是少數;又如:疾病診斷系統中,診斷為陽性的也是少數。倘若直接使用不平衡數據集并使用常用算法構建模型進行分類,結果是不理想的。

因此,解決不平衡數據帶來的分類問題成了機器學習中的熱點問題。

其常用解決方法大致可以分為三類:
(1)特征選擇法;
(2)數據分布調整;
(3)模型訓練算法調整。
特征選擇法,即:突出少數類的特征,從而提高算法對少數類的識別率。
數據分布調整,即:使用欠采樣、過采樣、合成采樣等方法調整使得少數類與多數類在數量和質量上同等,該方法可用于數據預處理階段。
模型訓練算法調整,即:改進算法本身,加強算法對少數類的學習能力,從而提升少數類的識別率。

本文使用第二種方法,即:數據分布調整,主要介紹SMOTE合成采樣及其變種算法。
在下篇文章中,我將使用 python 帶你寫一遍 SMOTE 源碼。

通過閱讀本文,你可以了解:
(1)SMOTE 是什么?
(2)SMOTE 的原理?
(3)SMOTE 的改進算法有哪些?

好啦,我們開始吧。


娘口三三喲,開始吧.gif

SMOTE 是什么

SMOTE,根據 SMOTE 原文:Synthetic Minority Over-sampling Technique(合成少數類樣本的過采樣技術),很多人把它歸類于過采樣,我個人更喜歡稱它為合成采樣(怎么稱呼都隨便,各有所愛啦)

SMOTE 是一種合成采樣技術,即從少數類樣本出發,找到鄰近樣本,合成新的少數類樣本,使少數類樣本數與多數類樣本數保持一致。

在 SMOTE 合成采樣技術問世之前,過采樣技術基本是通過復制樣本來增加樣本數量(如:隨機過采樣技術)。然而,通過簡單的樣本復制僅僅增加了樣本數量,而不能提升樣本質量,數據依舊是不平衡的,因此,分類器只能重復學習同樣的特征,對分類性能的提升是很有限的。
SMOTE 則通過合成新樣本的方法,算法可以從更多新樣本中學習到更有利于少數類分類的內容,因此,SMOTE 一經問世就很火熱,至今成了過采樣的經典算法。

SMOTE 的原理

對于合成樣本,考慮的問題是:
(1)如何合成;
(2)合成多少。
SMOTE 如何合成新樣本:
很簡單,
就是對所有少數類樣本使用 k 近鄰尋找鄰近樣本,然后進行直線隨機插值,實現樣本的合成。
其中,插值的位置是隨機的,每個樣本點插值的數量是均等的(多余的隨機刪掉)。
具體插值過程如下圖所示:

SMOTE 合成過程

圖中設置 k 近鄰中的 k=4,X1為少數類樣本點,它找到了 X11,X12,X13,X14,這四個近鄰樣本點,在X1與X11之間的插值中,diff 是兩樣本點的距離,新生成的樣本點 r1 在連接的直線上,gap 是 X1 到 X11 之間隨機距離。
通過公式: r1 = X1 + gap * diff 生成樣本。

這就是 SMOTE 合成樣本的過程。

針對于合成多少樣本合適,主要還是需要依賴數據本身,不過,一般情況下都是1:1的方式合成樣本最好,因為數據越平衡,其分類效果越好。

SMOTE 的改進算法

與之前隨機過采樣相比,SMOTE 合成樣本更好,但同時 SMOTE 也存在一些不足,于是產生了很多改進算法。
其改進算法基本可以分為以下幾類:
(1)在樣本初始選擇方面改進:
主要針對初始樣本選擇方面,SMOTE 選擇了所有少數類樣本作為插值的候選樣本,但并不是所有少數類樣本都適合插值,這種改進主要是針對噪聲問題的,例如下圖所示:

產生噪聲點

如上圖所示,SMOTE 可能會根據噪聲點來插值,從而形成更多的噪聲點。

這方面的改進比較有名的就是:Borderline-SMOTE 了。
該算法將少數類樣本點分為:安全點、邊緣點和危險點,三類,并且僅對邊緣點進行插值,因為作者認為,邊緣點在分類中作用更大,突出邊緣點更有利于分類。

(2)與欠采樣結合:
這種就很容易理解了,即:使用 SMOTE 合成更多少數類樣本,結合對多數類的欠采樣。

(3)插值類型的改進:
SMOTE 的插值很簡單,使用的是隨機線性插值法,因此具有盲目性,新生成樣本不一定能精準的在合適的位置上。
其改進算法有,通過限制插值范圍來改進插值的盲目性問題;或者使用特征加權來生成新樣本;或者基于聚類來插值;或者基于圖論來插值;或者基于分布插值。等等。
這些改進的插值技術,都是從插值類型出發來提高生成樣本的質量。

(4)與特征選擇或降維相結合:
先對樣本集進行特征選擇或降維操作,然后在新維度空間中使用 SMOTE 生成樣本。例如:先進行 PCA,然后再使用 SMOTE 生成樣本。
這種主要針對高維數據,通過降維后生成的樣本更具有代表性。

(5)自適應生成樣本:
該方法的原理是:通過學習難度自動調節樣本權值來生成樣本。使用該方法較為經典的算法有:ADASYN。
由于,目前沒單獨了解該算法,就不深入探討了,請見諒。

(6)篩選出有噪聲的樣本:
主要針對 SMOTE 合成樣本具有生成重疊樣本和噪聲樣本的問題,使用某種噪聲過濾技術,篩選出噪聲樣本,生成高質量的樣本??墒褂煤芏嗖呗詠磉^濾噪聲,例如:使用貪婪濾波策略、基于集成技術的過濾策略、基于進化的過濾策略等等。

從以上改進算法可以看出,SMOTE 的發展已經很成熟了,改進算法也挺全面的。所以,可以安全使用,謹慎改進。

嘿嘿

我終于寫完了,謝謝你看完了。
下篇文章,我將詳細講解 SMOTE 源碼。

參考文獻

[1]SMOTE: Synthetic Minority Over-sampling Technique.
[2]Borderline-SMOTE: A New Over-Sampling Method in Imbalanced Data Sets Learning.
[3]SMOTE for Learning from Imbalanced Data: Progress and Challenges, Marking the 15-year Anniversary.

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,428評論 6 531
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,024評論 3 413
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事?!?“怎么了?”我有些...
    開封第一講書人閱讀 175,285評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,548評論 1 307
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,328評論 6 404
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 54,878評論 1 321
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 42,971評論 3 439
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,098評論 0 286
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,616評論 1 331
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,554評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,725評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,243評論 5 355
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 43,971評論 3 345
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,361評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,613評論 1 280
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,339評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,695評論 2 370