亚洲人成人无码www,亚洲欧美乱综合图片区小说区,暗交小拗女一区二区三区

cover

引言

在機器學習中，使用常用算法進行分類時，如：邏輯回歸、決策樹、支持向量機、隨機森林等，都假設數據集是平衡的，即：不同類別的數據在數量和質量上都是同等的。

然而，真實世界中大多數數據并不滿足該要求，如：銀行信用系統中，不守信用的客戶是少數；又如：疾病診斷系統中，診斷為陽性的也是少數。倘若直接使用不平衡數據集并使用常用算法構建模型進行分類，結果是不理想的。

因此，解決不平衡數據帶來的分類問題成了機器學習中的熱點問題。

其常用解決方法大致可以分為三類：
（1）特征選擇法；
（2）數據分布調整；
（3）模型訓練算法調整。
特征選擇法，即：突出少數類的特征，從而提高算法對少數類的識別率。
數據分布調整，即：使用欠采樣、過采樣、合成采樣等方法調整使得少數類與多數類在數量和質量上同等，該方法可用于數據預處理階段。
模型訓練算法調整，即：改進算法本身，加強算法對少數類的學習能力，從而提升少數類的識別率。

本文使用第二種方法，即：數據分布調整，主要介紹SMOTE合成采樣及其變種算法。
在下篇文章中，我將使用 python 帶你寫一遍 SMOTE 源碼。

通過閱讀本文，你可以了解：
（1）SMOTE 是什么？
（2）SMOTE 的原理？
（3）SMOTE 的改進算法有哪些？

好啦，我們開始吧。

娘口三三喲，開始吧.gif

SMOTE 是什么

SMOTE，根據 SMOTE 原文：Synthetic Minority Over-sampling Technique（合成少數類樣本的過采樣技術），很多人把它歸類于過采樣，我個人更喜歡稱它為合成采樣（怎么稱呼都隨便，各有所愛啦）

SMOTE 是一種合成采樣技術，即從少數類樣本出發，找到鄰近樣本，合成新的少數類樣本，使少數類樣本數與多數類樣本數保持一致。

在 SMOTE 合成采樣技術問世之前，過采樣技術基本是通過復制樣本來增加樣本數量（如：隨機過采樣技術）。然而，通過簡單的樣本復制僅僅增加了樣本數量，而不能提升樣本質量，數據依舊是不平衡的，因此，分類器只能重復學習同樣的特征，對分類性能的提升是很有限的。
SMOTE 則通過合成新樣本的方法，算法可以從更多新樣本中學習到更有利于少數類分類的內容，因此，SMOTE 一經問世就很火熱，至今成了過采樣的經典算法。

SMOTE 的原理

對于合成樣本，考慮的問題是：
（1）如何合成；
（2）合成多少。
SMOTE 如何合成新樣本：
很簡單，
就是對所有少數類樣本使用 k 近鄰尋找鄰近樣本，然后進行直線隨機插值，實現樣本的合成。
其中，插值的位置是隨機的，每個樣本點插值的數量是均等的（多余的隨機刪掉）。
具體插值過程如下圖所示：

SMOTE 合成過程

圖中設置 k 近鄰中的 k=4，X1為少數類樣本點，它找到了 X11,X12,X13,X14，這四個近鄰樣本點，在X1與X11之間的插值中，diff 是兩樣本點的距離，新生成的樣本點 r1 在連接的直線上，gap 是 X1 到 X11 之間隨機距離。
通過公式： r1 = X1 + gap * diff 生成樣本。

這就是 SMOTE 合成樣本的過程。

針對于合成多少樣本合適，主要還是需要依賴數據本身，不過，一般情況下都是1:1的方式合成樣本最好，因為數據越平衡，其分類效果越好。

SMOTE 的改進算法

與之前隨機過采樣相比，SMOTE 合成樣本更好，但同時 SMOTE 也存在一些不足，于是產生了很多改進算法。
其改進算法基本可以分為以下幾類：
（1）在樣本初始選擇方面改進：
主要針對初始樣本選擇方面，SMOTE 選擇了所有少數類樣本作為插值的候選樣本，但并不是所有少數類樣本都適合插值，這種改進主要是針對噪聲問題的，例如下圖所示：

產生噪聲點

如上圖所示，SMOTE 可能會根據噪聲點來插值，從而形成更多的噪聲點。

這方面的改進比較有名的就是：Borderline-SMOTE 了。
該算法將少數類樣本點分為：安全點、邊緣點和危險點，三類，并且僅對邊緣點進行插值，因為作者認為，邊緣點在分類中作用更大，突出邊緣點更有利于分類。

（2）與欠采樣結合：
這種就很容易理解了，即：使用 SMOTE 合成更多少數類樣本，結合對多數類的欠采樣。

（3）插值類型的改進：
SMOTE 的插值很簡單，使用的是隨機線性插值法，因此具有盲目性，新生成樣本不一定能精準的在合適的位置上。
其改進算法有，通過限制插值范圍來改進插值的盲目性問題；或者使用特征加權來生成新樣本；或者基于聚類來插值；或者基于圖論來插值；或者基于分布插值。等等。
這些改進的插值技術，都是從插值類型出發來提高生成樣本的質量。

（4）與特征選擇或降維相結合：
先對樣本集進行特征選擇或降維操作，然后在新維度空間中使用 SMOTE 生成樣本。例如：先進行 PCA，然后再使用 SMOTE 生成樣本。
這種主要針對高維數據，通過降維后生成的樣本更具有代表性。

（5）自適應生成樣本：
該方法的原理是：通過學習難度自動調節樣本權值來生成樣本。使用該方法較為經典的算法有：ADASYN。
由于，目前沒單獨了解該算法，就不深入探討了，請見諒。

（6）篩選出有噪聲的樣本：
主要針對 SMOTE 合成樣本具有生成重疊樣本和噪聲樣本的問題，使用某種噪聲過濾技術，篩選出噪聲樣本，生成高質量的樣本?？墒褂煤芏嗖呗詠磉^濾噪聲，例如：使用貪婪濾波策略、基于集成技術的過濾策略、基于進化的過濾策略等等。

從以上改進算法可以看出，SMOTE 的發展已經很成熟了，改進算法也挺全面的。所以，可以安全使用，謹慎改進。

嘿嘿

我終于寫完了，謝謝你看完了。
下篇文章，我將詳細講解 SMOTE 源碼。

參考文獻

[1]SMOTE: Synthetic Minority Over-sampling Technique.
[2]Borderline-SMOTE: A New Over-Sampling Method in Imbalanced Data Sets Learning.
[3]SMOTE for Learning from Imbalanced Data: Progress and Challenges, Marking the 15-year Anniversary.

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

不平衡數據-SMOTE綜述【SMOTE合成采樣系列】

不平衡數據-SMOTE綜述【SMOTE合成采樣系列】