您正在處理數(shù)據(jù)集。您可以創(chuàng)建分類模型并立即獲得90%的準(zhǔn)確度。你覺得“很棒”。你深入一點(diǎn),發(fā)現(xiàn)90%的數(shù)據(jù)屬于一個(gè)類。該死的!
這是一個(gè)不平衡數(shù)據(jù)集的例子,它可能導(dǎo)致令人沮喪的結(jié)果。
在這篇文章中,您將發(fā)現(xiàn)可用于在具有不平衡數(shù)據(jù)的機(jī)器學(xué)習(xí)數(shù)據(jù)集上提供出色結(jié)果的策略。
挫折!
不平衡的數(shù)據(jù)可能會(huì)讓您感到很沮喪。
當(dāng)你發(fā)現(xiàn)你的數(shù)據(jù)有不平衡的類并且你認(rèn)為你得到的所有好結(jié)果都變成了謊言時(shí),你會(huì)感到非常沮喪。
當(dāng)書籍,文章和博客文章似乎沒有為您提供有關(guān)處理數(shù)據(jù)不平衡的良好建議時(shí),下一波挫折就會(huì)出現(xiàn)。
放松,有很多選擇,我們將全面介紹它們。您可以為不平衡數(shù)據(jù)構(gòu)建預(yù)測(cè)模型。
什么是不平衡數(shù)據(jù)?
不平衡數(shù)據(jù)通常是指分類問題的問題,其中類沒有被平等地表示。
例如,您可能有一個(gè)包含100個(gè)實(shí)例(行)的2類(二進(jìn)制)分類問題??偣?0個(gè)實(shí)例標(biāo)記為Class-1,其余20個(gè)實(shí)例標(biāo)記為Class-2。
這是一個(gè)不平衡的數(shù)據(jù)集,Class-1與Class-2實(shí)例的比例為80:20或更簡(jiǎn)潔,為4:1。
對(duì)于兩類分類問題以及多類分類問題,您可能會(huì)遇到類不平衡問題。大多數(shù)技術(shù)都可以使用。
剩下的討論將假設(shè)一個(gè)兩類分類問題,因?yàn)樗菀姿伎己兔枋觥?/p>
不平衡是常見的
大多數(shù)分類數(shù)據(jù)集在每個(gè)類中沒有完全相同數(shù)量的實(shí)例,但是小的差異通常無(wú)關(guān)緊要。
有些問題是階級(jí)不平衡不僅僅是常見的,而是預(yù)期的。例如,在那些表征欺詐性交易的數(shù)據(jù)集中,這些數(shù)據(jù)集是不平衡的。絕大多數(shù)交易將在“非欺詐”類中進(jìn)行,而極少數(shù)交易將在“欺詐”類中。
另一個(gè)例子是客戶流失數(shù)據(jù)集,絕大多數(shù)客戶都使用該服務(wù)(“No-Churn”類),少數(shù)客戶取消訂閱(“Churn”類)。
如果上面的示例中存在類似4:1的適度類不平衡,則可能會(huì)導(dǎo)致問題。
準(zhǔn)確性悖論
該精度悖論是在介紹這個(gè)主題的確切情況的名字。
在這種情況下,您的準(zhǔn)確度測(cè)量可以說明您具有出色的準(zhǔn)確性(例如90%),但準(zhǔn)確性僅反映了潛在的階級(jí)分布。
這是非常常見的,因?yàn)榉诸悳?zhǔn)確性通常是我們?cè)谠u(píng)估分類問題模型時(shí)使用的第一個(gè)衡量標(biāo)準(zhǔn)。
把它全部放在紅色!
當(dāng)我們?cè)诓黄胶獾臄?shù)據(jù)集上訓(xùn)練時(shí),我們的模型中發(fā)生了什么?
正如您可能已經(jīng)猜到的那樣,我們?cè)诓黄胶鈹?shù)據(jù)上獲得90%準(zhǔn)確度的原因(在Class-1中有90%的實(shí)例)是因?yàn)槲覀兊哪P蜁?huì)查看數(shù)據(jù)并巧妙地決定最好的做法是始終預(yù)測(cè)“1級(jí)”并實(shí)現(xiàn)高精度。
使用簡(jiǎn)單的基于規(guī)則的算法時(shí)最好看到這一點(diǎn)。如果在最終模型中打印出規(guī)則,您將看到它很可能預(yù)測(cè)一個(gè)類,而不管它被要求預(yù)測(cè)的數(shù)據(jù)。
打擊不平衡訓(xùn)練數(shù)據(jù)的8種策略
我們現(xiàn)在了解什么是類不平衡,以及它為什么提供誤導(dǎo)性的分類準(zhǔn)確性。
那么我們有什么選擇呢?
1)你能收集更多數(shù)據(jù)嗎?
您可能認(rèn)為這很愚蠢,但收集更多數(shù)據(jù)幾乎總是被忽視。
你能收集更多數(shù)據(jù)嗎?花點(diǎn)時(shí)間考慮一下您是否能夠收集有關(guān)問題的更多數(shù)據(jù)。
較大的數(shù)據(jù)集可能會(huì)在類上顯示不同且可能更平衡的視角。
稍后當(dāng)我們查看重新采樣數(shù)據(jù)集時(shí),更多次要類的示例可能會(huì)有用。
2)嘗試更改性能指標(biāo)
準(zhǔn)確性不是使用不平衡數(shù)據(jù)集時(shí)使用的指標(biāo)。我們已經(jīng)看到它具有誤導(dǎo)性。
在使用不平衡類時(shí),有一些指標(biāo)可以告訴您更真實(shí)的故事。
在我的帖子“ 分類準(zhǔn)確性不夠:可以使用的更多性能指標(biāo) ”中,我提供了更多關(guān)于選擇不同性能指標(biāo)的建議。
在那篇文章中,我看了一個(gè)不平衡的數(shù)據(jù)集,它描述了患者乳腺癌復(fù)發(fā)的特征。
從那篇文章中,我建議查看以下性能測(cè)量,這些測(cè)量可以比傳統(tǒng)的分類準(zhǔn)確度更深入地了解模型的準(zhǔn)確性:
- 混淆矩陣:將預(yù)測(cè)分解為表格,顯示正確的預(yù)測(cè)(對(duì)角線)和不正確的預(yù)測(cè)類型(分配了不正確的預(yù)測(cè)類別)。
- 精度:分類器精確度的度量。
- 召回:分類器完整性的度量
- F1分?jǐn)?shù)(或F分?jǐn)?shù)):精確度和召回率的加權(quán)平均值。
我還建議你看一下以下內(nèi)容:
- Kappa(或Cohen的kappa):分類精度由數(shù)據(jù)中類的不平衡歸一化。
- ROC曲線:與精確度和回憶一樣,精度分為靈敏度和特異性,可以根據(jù)這些值的平衡閾值選擇模型。
您可以在我們的文章“ 評(píng)估和比較分類器性能與ROC曲線 ”中比較使用ROC曲線來比較分類準(zhǔn)確性。
還不確定嗎?從kappa開始,它將讓您更好地了解正在發(fā)生的事情,而不是分類準(zhǔn)確性。
3)嘗試重新采樣數(shù)據(jù)集
您可以更改用于構(gòu)建預(yù)測(cè)模型的數(shù)據(jù)集,以獲得更平衡的數(shù)據(jù)。
此更改稱為對(duì)數(shù)據(jù)集進(jìn)行采樣,您可以使用兩種主要方法來均衡類:
- 您可以從代表性不足的類中添加實(shí)例的副本,稱為過采樣(或更正式的替換采樣),或
- 您可以從過度表示的類中刪除實(shí)例,稱為欠采樣。
這些方法通常很容易實(shí)現(xiàn)并且運(yùn)行速度快。他們是一個(gè)很好的起點(diǎn)。
事實(shí)上,我建議你總是在所有不平衡數(shù)據(jù)集上嘗試這兩種方法,只是為了看看它是否能提高你的首選精確度量。
您可以在維基百科文章“ 數(shù)據(jù)分析中的過采樣和欠采樣 ”中學(xué)到更多內(nèi)容。
一些經(jīng)驗(yàn)法則
- 當(dāng)您擁有大量數(shù)據(jù)(數(shù)十或數(shù)十萬(wàn)個(gè)實(shí)例或更多)時(shí),請(qǐng)考慮對(duì)欠采樣進(jìn)行測(cè)試
- 當(dāng)您沒有大量數(shù)據(jù)(數(shù)萬(wàn)條記錄或更少)時(shí),請(qǐng)考慮測(cè)試過采樣
- 考慮測(cè)試隨機(jī)和非隨機(jī)(例如分層)抽樣方案。
- 考慮測(cè)試不同的重采樣比率(例如,您不必在二進(jìn)制分類問題中以1:1的比例為目標(biāo),嘗試其他比率)
4)嘗試生成合成樣品
生成合成樣本的一種簡(jiǎn)單方法是從少數(shù)類中的實(shí)例中隨機(jī)采樣屬性。
您可以在數(shù)據(jù)集中憑經(jīng)驗(yàn)對(duì)它們進(jìn)行采樣,或者您可以使用像Naive Bayes這樣的方法,可以在反向運(yùn)行時(shí)獨(dú)立地對(duì)每個(gè)屬性進(jìn)行采樣。您將擁有更多不同的數(shù)據(jù),但可能無(wú)法保留屬性之間的非線性關(guān)系。
您可以使用系統(tǒng)算法生成合成樣本。最流行的此類算法稱為SMOTE或合成少數(shù)過采樣技術(shù)。
顧名思義,SMOTE是一種過采樣方法。它的工作原理是從次要類創(chuàng)建合成樣本,而不是創(chuàng)建副本。該算法選擇兩個(gè)或更多個(gè)類似的實(shí)例(使用距離測(cè)量)并且通過差異內(nèi)的相鄰實(shí)例的隨機(jī)量一次擾動(dòng)實(shí)例一個(gè)屬性。
了解有關(guān)SMOTE的更多信息,請(qǐng)參閱2002年原創(chuàng)的題為“ SMOTE:Synthetic Minority Over-sampling Technique ”的論文。
SMOTE算法有許多實(shí)現(xiàn),例如:
- 在Python中,看看“ UnbalancedDataset ”模塊。它提供了許多SMOTE實(shí)現(xiàn)以及您可以嘗試的各種其他重采樣技術(shù)。
- 在R中,DMwR包提供了SMOTE的實(shí)現(xiàn)。
- 在Weka中,您可以使用SMOTE監(jiān)督過濾器。
5)嘗試不同的算法
與往常一樣,我強(qiáng)烈建議您不要在每個(gè)問題上使用您喜歡的算法。您應(yīng)該至少在給定問題上對(duì)各種不同類型的算法進(jìn)行抽樣檢查。
有關(guān)點(diǎn)檢查算法的更多信息,請(qǐng)參閱我的文章“為什么你應(yīng)該在機(jī)器學(xué)習(xí)問題上進(jìn)行現(xiàn)場(chǎng)檢查算法”。
話雖這么說,決策樹通常在不平衡的數(shù)據(jù)集上表現(xiàn)良好。查看用于創(chuàng)建樹的類變量的拆分規(guī)則可以強(qiáng)制解決這兩個(gè)類。
如果有疑問,請(qǐng)嘗試一些流行的決策樹算法,如C4.5,C5.0,CART和隨機(jī)森林。
對(duì)于使用決策樹的R代碼的一些示例,請(qǐng)參閱我的帖子“ 帶有決策樹的R中的非線性分類 ”。
有關(guān)在Python和scikit-learn中使用CART的示例,請(qǐng)參閱我的帖子“ 使用Scikit讓你的手變臟 - 立即學(xué)習(xí) ”。
6)嘗試懲罰模型
您可以使用相同的算法,但為他們提供不同的視角。
懲罰分類會(huì)對(duì)模型造成額外成本,以便在培訓(xùn)期間對(duì)少數(shù)群體犯下分類錯(cuò)誤。這些處罰可能會(huì)使模型偏向于更多地關(guān)注少數(shù)民族。
通常,類懲罰或權(quán)重的處理專用于學(xué)習(xí)算法。存在懲罰版本的算法,例如懲罰的SVM和懲罰的LDA。
也可以為懲罰模型提供通用框架。例如,Weka有一個(gè)CostSensitiveClassifier,可以包裝任何分類器并應(yīng)用自定義懲罰矩陣進(jìn)行未命中分類。
如果您被鎖定在特定算法中并且無(wú)法重新取樣或者您的結(jié)果不佳,則需要使用懲罰。它提供了另一種“平衡”類的方法。設(shè)置懲罰矩陣可能很復(fù)雜。您很可能必須嘗試各種懲罰方案,看看什么最適合您的問題。
7)嘗試不同的觀點(diǎn)
有專門針對(duì)不平衡數(shù)據(jù)集的研究領(lǐng)域。他們有自己的算法,措施和術(shù)語(yǔ)。
從這些角度看一看并思考你的問題有時(shí)會(huì)讓一些想法失去理智。
您可能想要考慮的兩個(gè)是異常檢測(cè)和變化檢測(cè)。
異常檢測(cè)是罕見事件的檢測(cè)。這可能是由于其振動(dòng)或由系統(tǒng)調(diào)用序列指示的程序的惡意活動(dòng)而指示的機(jī)器故障。與正常操作相比,這些事件很少見。
思維的這種轉(zhuǎn)變將次要類別視為異常類,這可能有助于您考慮分離和分類樣本的新方法。
變化檢測(cè)類似于異常檢測(cè),除了尋找異常之外,它正在尋找變化或差異。這可能是使用模式或銀行交易所觀察到的用戶行為的變化。
這兩種轉(zhuǎn)變都會(huì)對(duì)分類問題采取更實(shí)時(shí)的立場(chǎng),這可能會(huì)為您提供一些思考問題的新方法,也許還有一些嘗試的技巧。
8)嘗試獲得創(chuàng)意
真正爬進(jìn)你的問題并思考如何將其分解為更容易處理的小問題。
為了獲得靈感,請(qǐng)查看Quora上非常有創(chuàng)意的答案,回答“ 在分類中,您如何處理不平衡的訓(xùn)練集?”
例如:
將較大的類分解為較少數(shù)量的其他類...
...使用一類分類器......(例如像異常值檢測(cè)一樣處理)
......將不平衡的訓(xùn)練集重新取樣到不是一個(gè)平衡集,而是幾個(gè)。在這些集合上運(yùn)行分類集合可以產(chǎn)生比單獨(dú)一個(gè)分類器更好的結(jié)果
這些只是您可以嘗試的一些有趣且富有創(chuàng)意的想法。
有關(guān)更多想法,請(qǐng)?jiān)趓eddit帖子“ 我80%的訓(xùn)練集屬于一個(gè)班級(jí)時(shí)分類 ”中查看這些評(píng)論。
選擇一種方法并采取行動(dòng)
您不需要是算法向?qū)Щ蚪y(tǒng)計(jì)學(xué)家來從不平衡數(shù)據(jù)集構(gòu)建準(zhǔn)確可靠的模型。
我們已經(jīng)介紹了許多可用于建模不平衡數(shù)據(jù)集的技術(shù)。
希望您可以從架子上立即應(yīng)用一兩個(gè),例如更改精度指標(biāo)和重新采樣數(shù)據(jù)集。兩者都很快,并會(huì)立即產(chǎn)生影響。
你打算嘗試哪種方法?
最后一句話,從小開始
請(qǐng)記住,我們無(wú)法知道哪種方法最適合您以及您正在處理的數(shù)據(jù)集。
從小處著手,以你學(xué)到的東西為基礎(chǔ)。