44、機(jī)器學(xué)習(xí)數(shù)據(jù)集中不平衡類的8種策略

您正在處理數(shù)據(jù)集。您可以創(chuàng)建分類模型并立即獲得90%的準(zhǔn)確度。你覺得“很棒”。你深入一點(diǎn),發(fā)現(xiàn)90%的數(shù)據(jù)屬于一個(gè)類。該死的!

這是一個(gè)不平衡數(shù)據(jù)集的例子,它可能導(dǎo)致令人沮喪的結(jié)果。

在這篇文章中,您將發(fā)現(xiàn)可用于在具有不平衡數(shù)據(jù)的機(jī)器學(xué)習(xí)數(shù)據(jù)集上提供出色結(jié)果的策略。

挫折!

不平衡的數(shù)據(jù)可能會(huì)讓您感到很沮喪。

當(dāng)你發(fā)現(xiàn)你的數(shù)據(jù)有不平衡的類并且你認(rèn)為你得到的所有好結(jié)果都變成了謊言時(shí),你會(huì)感到非常沮喪。

當(dāng)書籍,文章和博客文章似乎沒有為您提供有關(guān)處理數(shù)據(jù)不平衡的良好建議時(shí),下一波挫折就會(huì)出現(xiàn)。

放松,有很多選擇,我們將全面介紹它們。您可以為不平衡數(shù)據(jù)構(gòu)建預(yù)測(cè)模型。

什么是不平衡數(shù)據(jù)?

不平衡數(shù)據(jù)通常是指分類問題的問題,其中類沒有被平等地表示。

例如,您可能有一個(gè)包含100個(gè)實(shí)例(行)的2類(二進(jìn)制)分類問題??偣?0個(gè)實(shí)例標(biāo)記為Class-1,其余20個(gè)實(shí)例標(biāo)記為Class-2。

這是一個(gè)不平衡的數(shù)據(jù)集,Class-1與Class-2實(shí)例的比例為80:20或更簡(jiǎn)潔,為4:1。

對(duì)于兩類分類問題以及多類分類問題,您可能會(huì)遇到類不平衡問題。大多數(shù)技術(shù)都可以使用。

剩下的討論將假設(shè)一個(gè)兩類分類問題,因?yàn)樗菀姿伎己兔枋觥?/p>

不平衡是常見的

大多數(shù)分類數(shù)據(jù)集在每個(gè)類中沒有完全相同數(shù)量的實(shí)例,但是小的差異通常無(wú)關(guān)緊要。

有些問題是階級(jí)不平衡不僅僅是常見的,而是預(yù)期的。例如,在那些表征欺詐性交易的數(shù)據(jù)集中,這些數(shù)據(jù)集是不平衡的。絕大多數(shù)交易將在“非欺詐”類中進(jìn)行,而極少數(shù)交易將在“欺詐”類中。

另一個(gè)例子是客戶流失數(shù)據(jù)集,絕大多數(shù)客戶都使用該服務(wù)(“No-Churn”類),少數(shù)客戶取消訂閱(“Churn”類)。

如果上面的示例中存在類似4:1的適度類不平衡,則可能會(huì)導(dǎo)致問題。

準(zhǔn)確性悖論

精度悖論是在介紹這個(gè)主題的確切情況的名字。

在這種情況下,您的準(zhǔn)確度測(cè)量可以說明您具有出色的準(zhǔn)確性(例如90%),但準(zhǔn)確性僅反映了潛在的階級(jí)分布。

這是非常常見的,因?yàn)榉诸悳?zhǔn)確性通常是我們?cè)谠u(píng)估分類問題模型時(shí)使用的第一個(gè)衡量標(biāo)準(zhǔn)。

把它全部放在紅色!

當(dāng)我們?cè)诓黄胶獾臄?shù)據(jù)集上訓(xùn)練時(shí),我們的模型中發(fā)生了什么?

正如您可能已經(jīng)猜到的那樣,我們?cè)诓黄胶鈹?shù)據(jù)上獲得90%準(zhǔn)確度的原因(在Class-1中有90%的實(shí)例)是因?yàn)槲覀兊哪P蜁?huì)查看數(shù)據(jù)并巧妙地決定最好的做法是始終預(yù)測(cè)“1級(jí)”并實(shí)現(xiàn)高精度。

使用簡(jiǎn)單的基于規(guī)則的算法時(shí)最好看到這一點(diǎn)。如果在最終模型中打印出規(guī)則,您將看到它很可能預(yù)測(cè)一個(gè)類,而不管它被要求預(yù)測(cè)的數(shù)據(jù)。

打擊不平衡訓(xùn)練數(shù)據(jù)的8種策略

我們現(xiàn)在了解什么是類不平衡,以及它為什么提供誤導(dǎo)性的分類準(zhǔn)確性。

那么我們有什么選擇呢?

1)你能收集更多數(shù)據(jù)嗎?

您可能認(rèn)為這很愚蠢,但收集更多數(shù)據(jù)幾乎總是被忽視。

你能收集更多數(shù)據(jù)嗎?花點(diǎn)時(shí)間考慮一下您是否能夠收集有關(guān)問題的更多數(shù)據(jù)。

較大的數(shù)據(jù)集可能會(huì)在類上顯示不同且可能更平衡的視角。

稍后當(dāng)我們查看重新采樣數(shù)據(jù)集時(shí),更多次要類的示例可能會(huì)有用。

2)嘗試更改性能指標(biāo)

準(zhǔn)確性不是使用不平衡數(shù)據(jù)集時(shí)使用的指標(biāo)。我們已經(jīng)看到它具有誤導(dǎo)性。

在使用不平衡類時(shí),有一些指標(biāo)可以告訴您更真實(shí)的故事。

在我的帖子“ 分類準(zhǔn)確性不夠:可以使用的更多性能指標(biāo) ”中,我提供了更多關(guān)于選擇不同性能指標(biāo)的建議。

在那篇文章中,我看了一個(gè)不平衡的數(shù)據(jù)集,它描述了患者乳腺癌復(fù)發(fā)的特征。

從那篇文章中,我建議查看以下性能測(cè)量,這些測(cè)量可以比傳統(tǒng)的分類準(zhǔn)確度更深入地了解模型的準(zhǔn)確性:

  • 混淆矩陣:將預(yù)測(cè)分解為表格,顯示正確的預(yù)測(cè)(對(duì)角線)和不正確的預(yù)測(cè)類型(分配了不正確的預(yù)測(cè)類別)。
  • 精度:分類器精確度的度量。
  • 召回:分類器完整性的度量
  • F1分?jǐn)?shù)(或F分?jǐn)?shù)):精確度和召回率的加權(quán)平均值。

我還建議你看一下以下內(nèi)容:

  • Kappa(或Cohen的kappa:分類精度由數(shù)據(jù)中類的不平衡歸一化。
  • ROC曲線:與精確度和回憶一樣,精度分為靈敏度和特異性,可以根據(jù)這些值的平衡閾值選擇模型。

您可以在我們的文章“ 評(píng)估和比較分類器性能與ROC曲線 ”中比較使用ROC曲線來比較分類準(zhǔn)確性。

還不確定嗎?從kappa開始,它將讓您更好地了解正在發(fā)生的事情,而不是分類準(zhǔn)確性。

3)嘗試重新采樣數(shù)據(jù)集

您可以更改用于構(gòu)建預(yù)測(cè)模型的數(shù)據(jù)集,以獲得更平衡的數(shù)據(jù)。

此更改稱為對(duì)數(shù)據(jù)集進(jìn)行采樣,您可以使用兩種主要方法來均衡類:

  1. 您可以從代表性不足的類中添加實(shí)例的副本,稱為過采樣(或更正式的替換采樣),或
  2. 您可以從過度表示的類中刪除實(shí)例,稱為欠采樣。

這些方法通常很容易實(shí)現(xiàn)并且運(yùn)行速度快。他們是一個(gè)很好的起點(diǎn)。

事實(shí)上,我建議你總是在所有不平衡數(shù)據(jù)集上嘗試這兩種方法,只是為了看看它是否能提高你的首選精確度量。

您可以在維基百科文章“ 數(shù)據(jù)分析中的過采樣和欠采樣 ”中學(xué)到更多內(nèi)容。

一些經(jīng)驗(yàn)法則

  • 當(dāng)您擁有大量數(shù)據(jù)(數(shù)十或數(shù)十萬(wàn)個(gè)實(shí)例或更多)時(shí),請(qǐng)考慮對(duì)欠采樣進(jìn)行測(cè)試
  • 當(dāng)您沒有大量數(shù)據(jù)(數(shù)萬(wàn)條記錄或更少)時(shí),請(qǐng)考慮測(cè)試過采樣
  • 考慮測(cè)試隨機(jī)和非隨機(jī)(例如分層)抽樣方案。
  • 考慮測(cè)試不同的重采樣比率(例如,您不必在二進(jìn)制分類問題中以1:1的比例為目標(biāo),嘗試其他比率)

4)嘗試生成合成樣品

生成合成樣本的一種簡(jiǎn)單方法是從少數(shù)類中的實(shí)例中隨機(jī)采樣屬性。

您可以在數(shù)據(jù)集中憑經(jīng)驗(yàn)對(duì)它們進(jìn)行采樣,或者您可以使用像Naive Bayes這樣的方法,可以在反向運(yùn)行時(shí)獨(dú)立地對(duì)每個(gè)屬性進(jìn)行采樣。您將擁有更多不同的數(shù)據(jù),但可能無(wú)法保留屬性之間的非線性關(guān)系。

您可以使用系統(tǒng)算法生成合成樣本。最流行的此類算法稱為SMOTE或合成少數(shù)過采樣技術(shù)。

顧名思義,SMOTE是一種過采樣方法。它的工作原理是從次要類創(chuàng)建合成樣本,而不是創(chuàng)建副本。該算法選擇兩個(gè)或更多個(gè)類似的實(shí)例(使用距離測(cè)量)并且通過差異內(nèi)的相鄰實(shí)例的隨機(jī)量一次擾動(dòng)實(shí)例一個(gè)屬性。

了解有關(guān)SMOTE的更多信息,請(qǐng)參閱2002年原創(chuàng)的題為“ SMOTE:Synthetic Minority Over-sampling Technique ”的論文。

SMOTE算法有許多實(shí)現(xiàn),例如:

  • 在Python中,看看“ UnbalancedDataset ”模塊。它提供了許多SMOTE實(shí)現(xiàn)以及您可以嘗試的各種其他重采樣技術(shù)。
  • 在R中,DMwR包提供了SMOTE的實(shí)現(xiàn)。
  • 在Weka中,您可以使用SMOTE監(jiān)督過濾器。

5)嘗試不同的算法

與往常一樣,我強(qiáng)烈建議您不要在每個(gè)問題上使用您喜歡的算法。您應(yīng)該至少在給定問題上對(duì)各種不同類型的算法進(jìn)行抽樣檢查。

有關(guān)點(diǎn)檢查算法的更多信息,請(qǐng)參閱我的文章“為什么你應(yīng)該在機(jī)器學(xué)習(xí)問題上進(jìn)行現(xiàn)場(chǎng)檢查算法”。

話雖這么說,決策樹通常在不平衡的數(shù)據(jù)集上表現(xiàn)良好。查看用于創(chuàng)建樹的類變量的拆分規(guī)則可以強(qiáng)制解決這兩個(gè)類。

如果有疑問,請(qǐng)嘗試一些流行的決策樹算法,如C4.5,C5.0,CART和隨機(jī)森林。

對(duì)于使用決策樹的R代碼的一些示例,請(qǐng)參閱我的帖子“ 帶有決策樹的R中的非線性分類 ”。

有關(guān)在Python和scikit-learn中使用CART的示例,請(qǐng)參閱我的帖子“ 使用Scikit讓你的手變臟 - 立即學(xué)習(xí) ”。

6)嘗試懲罰模型

您可以使用相同的算法,但為他們提供不同的視角。

懲罰分類會(huì)對(duì)模型造成額外成本,以便在培訓(xùn)期間對(duì)少數(shù)群體犯下分類錯(cuò)誤。這些處罰可能會(huì)使模型偏向于更多地關(guān)注少數(shù)民族。

通常,類懲罰或權(quán)重的處理專用于學(xué)習(xí)算法。存在懲罰版本的算法,例如懲罰的SVM和懲罰的LDA。

也可以為懲罰模型提供通用框架。例如,Weka有一個(gè)CostSensitiveClassifier,可以包裝任何分類器并應(yīng)用自定義懲罰矩陣進(jìn)行未命中分類。

如果您被鎖定在特定算法中并且無(wú)法重新取樣或者您的結(jié)果不佳,則需要使用懲罰。它提供了另一種“平衡”類的方法。設(shè)置懲罰矩陣可能很復(fù)雜。您很可能必須嘗試各種懲罰方案,看看什么最適合您的問題。

7)嘗試不同的觀點(diǎn)

有專門針對(duì)不平衡數(shù)據(jù)集的研究領(lǐng)域。他們有自己的算法,措施和術(shù)語(yǔ)。

從這些角度看一看并思考你的問題有時(shí)會(huì)讓一些想法失去理智。

您可能想要考慮的兩個(gè)是異常檢測(cè)變化檢測(cè)。

異常檢測(cè)是罕見事件的檢測(cè)。這可能是由于其振動(dòng)或由系統(tǒng)調(diào)用序列指示的程序的惡意活動(dòng)而指示的機(jī)器故障。與正常操作相比,這些事件很少見。

思維的這種轉(zhuǎn)變將次要類別視為異常類,這可能有助于您考慮分離和分類樣本的新方法。

變化檢測(cè)類似于異常檢測(cè),除了尋找異常之外,它正在尋找變化或差異。這可能是使用模式或銀行交易所觀察到的用戶行為的變化。

這兩種轉(zhuǎn)變都會(huì)對(duì)分類問題采取更實(shí)時(shí)的立場(chǎng),這可能會(huì)為您提供一些思考問題的新方法,也許還有一些嘗試的技巧。

8)嘗試獲得創(chuàng)意

真正爬進(jìn)你的問題并思考如何將其分解為更容易處理的小問題。

為了獲得靈感,請(qǐng)查看Quora上非常有創(chuàng)意的答案,回答“ 在分類中,您如何處理不平衡的訓(xùn)練集?

例如:

將較大的類分解為較少數(shù)量的其他類...

...使用一類分類器......(例如像異常值檢測(cè)一樣處理)

......將不平衡的訓(xùn)練集重新取樣到不是一個(gè)平衡集,而是幾個(gè)。在這些集合上運(yùn)行分類集合可以產(chǎn)生比單獨(dú)一個(gè)分類器更好的結(jié)果

這些只是您可以嘗試的一些有趣且富有創(chuàng)意的想法。

有關(guān)更多想法,請(qǐng)?jiān)趓eddit帖子“ 我80%的訓(xùn)練集屬于一個(gè)班級(jí)時(shí)分類 ”中查看這些評(píng)論。

選擇一種方法并采取行動(dòng)

您不需要是算法向?qū)Щ蚪y(tǒng)計(jì)學(xué)家來從不平衡數(shù)據(jù)集構(gòu)建準(zhǔn)確可靠的模型。

我們已經(jīng)介紹了許多可用于建模不平衡數(shù)據(jù)集的技術(shù)。

希望您可以從架子上立即應(yīng)用一兩個(gè),例如更改精度指標(biāo)和重新采樣數(shù)據(jù)集。兩者都很快,并會(huì)立即產(chǎn)生影響。

你打算嘗試哪種方法?

最后一句話,從小開始

請(qǐng)記住,我們無(wú)法知道哪種方法最適合您以及您正在處理的數(shù)據(jù)集。

從小處著手,以你學(xué)到的東西為基礎(chǔ)。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,797評(píng)論 6 531
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 98,179評(píng)論 3 414
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 175,628評(píng)論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我,道長(zhǎng),這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,642評(píng)論 1 309
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 71,444評(píng)論 6 405
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 54,948評(píng)論 1 321
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,040評(píng)論 3 440
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 42,185評(píng)論 0 287
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 48,717評(píng)論 1 333
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 40,602評(píng)論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 42,794評(píng)論 1 369
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,316評(píng)論 5 358
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 44,045評(píng)論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,418評(píng)論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,671評(píng)論 1 281
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 51,414評(píng)論 3 390
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 47,750評(píng)論 2 370

推薦閱讀更多精彩內(nèi)容