異常檢測·1-Deep Learning for Anomaly Detection:A Review

文獻來源:
Pang, Guansong, et al. "Deep learning for anomaly detection: A review." ACM Computing Surveys (CSUR) 54.2 (2021): 1-38.

主題:基于深度方法的異常檢測綜述

摘要:異常檢測的任務類型,問題復雜度,主要挑戰。總結主流方法的假設,優缺點,場景。提出未來的研究方向。

任務類別

單點檢測、條件異常檢測、群異常檢測

問題復雜度

  1. 異常樣本的未知性,無限可能。
  2. 異常類的異質問題
  3. 異常樣本的極度不平衡

主要挑戰

  1. 異常樣本的低召回率
  2. 高維和非獨立(概率依賴)數據
  3. 樣本的利用效率:無監督、半監督、弱監督學習方式
  4. 正常樣本受噪聲污染情況下的魯棒學習
  5. 復雜樣本的檢測,包括條件異常、群異常以及多源的異質異常
  6. 異常檢測結果的解釋性

深度方法對比傳統方法

image.png

方法分類

  1. 大小類


    image.png
  2. 大類框架


    image.png

方法1:深度學習僅用于特征提取

假設:深度模型提取的特征保持了樣本類別間的判別信息,有助于異常樣本的檢測。

基本方法:特征提取與異常檢測解耦且異常檢測特征提取沒有約束。兩個方法提取特征:1)使用預訓練模型。2)使用自編碼器AE。

優點:1)存在大量預訓練模型可用。2)深度降維特征優于線性降維特征。3)由于解耦,有大量特征提取模型和異常檢測模型方便快速應用。

缺點:1)由于解耦,往往不能獲得最優檢測結果。2)異常檢測受限于現有的預訓練模型。

挑戰目標:CH1,CH2

方法2 正常類的特征提取

分2類:1)使用一般方法的特征提取,即沒有異常樣本指導和約束情況下的特征提取。方法:AE、GAN、預測模型、自監督。2)結合常用的異常度量進行特征學習。方法:距離度量、one-class、聚類。

方法2.1.1 基于AE的通用特征提取

假設:正常樣本可以更好的重構。

方法:使用AE訓練,使用重構誤差作為異常分數。

優點:1)不同類型的數據通用;2)有多個AE變種可用。

缺點:1)模型易受噪聲影響產生偏見;2)AE針對降維和壓縮等任務,沒有對異常檢測進行優化。

挑戰:CH1,CH4

方法2.1.2 基于GAN的通用特征判別

假設:正常樣本相對于異常樣本更容易生成。

方法:先獲得GAN的生成器G和判別器D。使用待測樣本逆向計算出對應特征z。通過L(x,G(z))和D中中間層的特征提取h(G(z))計算的L(h(x),h(G(z))作為異常分數。

優點:1)GAN生成的圖像更接近現實樣本。2)存在大量類型的GAN可用。

缺點:1)GAN由于模式坍塌的問題難以訓練。2)GAN難以解決復雜樣本的生成。3)GAN任務目標與異常檢測不一致,容易次優。

挑戰:CH1,CH2

方法2.1.3 基于預測模型的特征判別

一般用于視頻的異常檢測,由前t個幀預測第t+1個幀,根據預測結果的差異性進行異常檢測。

假設:正常樣本在視覺維度上比異常樣本更容易預測。

優點:1)有眾多的時間序列技術可以結合。2)能夠學習不同類型的時空依賴數據。

缺點:1)只能用于序列數據。2)計算代價高。3)目標并非異常檢測,結果容易次優。

挑戰:CH1,CH2,CH5

方法2.1.4 自監督學習

假設:正常樣本的自監督分類結果比異常樣本一致。

優點:1)能夠應用在無監督和半監督場景中。2)異常評分的基礎是梯度大小的一些內在特性及其更新。

缺點:1)自監督變換形式依賴于數據類型。2)結果次優,理由同上。

挑戰:CH1,CH2,CH4

方法2.2.1 基于距離度量

假設:正常樣本距離小

方法:在目標函數中結合距離目標對深度網絡進行約束。

優點:1)理論基礎研究豐富。2)結合深度網絡后,工作在低維上。3)可以靈活定義學習目標和過程。

缺點:1)距離結合進學習的過程難以處理。2)距離度量在異常檢測上的固有弱點。

挑戰:CH1,2,3,4

方法2.2.2 One-Class方法

假設:所有正常的實例都來自一個單一的(抽象的)類,并可以被一個緊湊的模型總結出來,而異常并不符合這個模型

基本方法:深度模型提取特征,OCSVM,SVDD處理單類分類

優點:1)有理論基礎支撐。2)深度模型與One-class模型聯合學習更優化的特征。3)避免人工選擇核函數。

缺點:1)難以有效學習復雜分布的正常數據。2)檢測性能依賴于單類分類模型。

挑戰: CH1,2,3

2.2.3 聚類度量

假設:正常樣本更容易聚集

基本方法:通過計算待測樣本與偽標簽的損失,以及非聚類的損失,如重構損失等來判別異常。

優點:1)有關已有的聚類研究的支撐。2)深度模型在檢測復雜樣本上優于傳統模型。

缺點:1)檢測性能受聚類結果的限制。2)容易受噪聲影響。

挑戰:CH1,2,4

3 方法

端到端的方法:1)排序模型,2)先驗驅動模型,3)softmax似然模型,4)端到端的單類模型。

3.1 排序模型

假設:存在一個可觀察的順序變量,它捕獲一些數據異常

3.2 先驗驅動模型

假設:賦予模型的先驗能夠有效捕捉到正常與異常數據的特征。

提到的文獻是關于強化學習應用場景,略。

3.3 softmax似然模型

假設:正常樣本更加頻繁的發生。

3.4 端到端的one-class模型

假設:1)可以有效地合成接近異常的數據實例。2)所有正常的實例都可以用一個判別器單類模型來概括。

方法:這是一類使用GAN的判別器作為one-class的基本模型。

優點:1)端到端的方式。2)對抗技術的支撐。

缺點:1)受GAN性能的限制。2)半監督場景的限制。

挑戰:CH1,2

代表算法

image.png

代碼

image.png

數據集

image.png

未來研究方向

  1. 探索新的,更有效的異常度量信號
  2. 建立從有限標記異常到未知異常的檢測模型,即泛化到異質的異常。
  3. 利用大規模的正常樣本進行學習,從正常樣本中遷移微調。
  4. 復雜異常的檢測,多模態的異質異常檢測。
  5. 異常判別的可解釋性
  6. 新場景:OOD檢測;好奇心學習;非獨立同分布場景。
?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,488評論 6 531
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,034評論 3 414
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 175,327評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,554評論 1 307
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,337評論 6 404
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 54,883評論 1 321
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 42,975評論 3 439
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,114評論 0 286
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,625評論 1 332
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,555評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,737評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,244評論 5 355
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 43,973評論 3 345
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,362評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,615評論 1 280
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,343評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,699評論 2 370

推薦閱讀更多精彩內容