標簽增強技術

LearnFromPapers系列——標簽增強技術(Label Enhancement)

<center>作者:郭必揚</center>
<center>時間:2020.12.29</center>

前言:我們習慣于使用one-hot標簽來進行模型的訓練,但是有沒有辦法可以構造出更好的標簽呢?本文主要根據東南大學的論文“Label Enhancement for Label Distribution Learning”進行解讀和整理,從而認識并理解在分類問題中“標簽增強”技術。

image.png
  • 論文標題:Label Enhancement for Label Distribution Learning
  • 會議/期刊:IJCAI-18
  • 團隊:東南大學 計算機科學與工程學院

標簽分布 & 標簽分布學習

標簽分布學習(Label Distribution Learning,LDL)的任務是讓模型去學習一個樣本的標簽分布(Label Distribution),即每一個維度都反映對應標簽程度的一種概率分布。這樣的標簽概率分布可以比one-hot更好地表示一個樣本的情況,原因主要有以下:

  • 一個標簽跟樣本是否有關,是一個相對的概念,即沒有一個“判斷是否相關”的絕對標準;
  • 當多個標簽都跟樣本相關時,它們的相關程度一般也是不同的;
  • 多個跟樣本不相關的標簽,它們的不相關程度也一般是不同的。

論文作者給出了幾個生動的例子:

image.png

然而,LDL任務的主要困難之一就是,標簽分布是十分難以獲取的。大多數的分類數據集都不具備這樣的條件,都只有一些ligical label。所謂logical label,就是指one-hot或者multi-one-hot的label。要獲取真實的標簽分布,理論上是需要對同一樣本進行大量的打標,得到其統(tǒng)計分布的,但這背后的人工成本是無法承受的。

主要思想

一個自然的解決辦法就是,既然無法從外部得到樣本的標簽分布,那就使用樣本集自身的特征空間來構造出這樣的標簽分布。

image.png

本文把這一類的方法稱為label Enhancement(LE),并介紹了幾種LE的方法,下面分別作簡單的介紹。

幾種經典的LE方法

1. Fuzzy C-Means(FCM)

Fuzzy C-Means 是一個代表性的“軟聚類”算法(soft clustering)。它實際上是對K-Means這種“硬聚類”算法的一種改進。K-means聚類只能將一個點劃分到一個簇里,而FCM則可以給出一個點歸屬于各個簇的概率分布。

FCM的目標函數為:
\underset{C}{\arg \min } \sum_{i=1}^{n} \sum_{j=1}^{c} w_{i j}^{m}\left\|\mathbf{x}_{i}-\mathbf{c}_{j}\right\|^{2}
其中x_i是樣本點的特征向量,c_j是簇中心的特征向量,w^m是每個點歸屬于每個簇的系數,c類別數,n是樣本總數。
w^m的計算公式如下,顯然離某個簇越近,其系數就越大:
w_{i j}=\frac{1}{\sum_{k=1}^{c}\left(\frac{\left\|\mathbf{x}_{i}-\mathbf{c}_{j}\right\|}{\left\|\mathbf{x}_{i}-\mathbf{c}_{k}\right\|}\right)^{\frac{2}{m-1}}}
而簇中心的計算方法為,就是所有樣本點特征的一個加權平均,其中m是超參數,控制fuzzy的程度,越大簇之間就越模糊:
c_{k}=\frac{\sum_{x} w_{k}(x)^{m} x}{\sum_{x} w_{k}(x)^{m}}

通過FCM算法,如果設置k個簇,樣本x_i的簇概率分布就是w_i這個c維向量。

然后,構造一個分類類別(classes)與聚類簇(clusters)之間的一個軟連接矩陣k×c的矩陣A:
A_j = A_j + w_i
即A的第j行(代表第j個類別),是由所有屬于該類別的樣本的簇分布累加而得到的。

最后,通過矩陣A與w_i點乘,就可以將每個樣本的簇分布(c個簇),轉化為標簽分布(k個標簽)了。

上面的過程,可以通過下圖來表達:

image.png

2.Label Propagation(LP)

LP的主要思想是通過樣本之間的相似度矩陣,來逐步調整原本的logical label representation。

第一步,通過下面的公式,計算N個樣本之間的一個N×N的相似性矩陣A:
a_{i j}=\left\{\begin{array}{cl} \exp \left(-\frac{\left\|\boldsymbol{x}_{i}-\boldsymbol{x}_{j}\right\|^{2}}{2}\right) & \text { if } i \neq j \\ 0 & \text { if } i=j \end{array}\right.

然后,根據下面的公式,構建label propagation matrix,即標簽傳導矩陣P:
\boldsymbol{P}=\hat{\boldsymbol{A}}^{-\frac{1}{2}} \boldsymbol{A} \hat{\boldsymbol{A}}^{-\frac{1}{2}}

看到這個公式,熟悉GCN的人會發(fā)現,這不就是拉普拉斯矩陣嘛,目的主要是為了讓原本的A矩陣歸一化和對稱。圖神經網絡的核心,也是鄰居節(jié)點之間的互相傳播,跟這里的相似樣本之間,進行標簽信息的傳播是類似的思想。

有了這個P傳播矩陣,就可以來通過“傳播”來構造標簽分布D了:
\boldsymbol{D}^{(t)}=\alpha \boldsymbol{P} \boldsymbol{D}^{(t-1)}+(1-\alpha) \boldsymbol{L}
其中L是原本的one-hot的logical label矩陣,D使用L來初始化。

通過不斷迭代上式,就可以得到一個趨于穩(wěn)定的標簽分布矩陣D了。

還是照例畫一個圖:

image.png

3.Mainifold Learning(LM)

除了LP之外,還有一個Mainifold Learning(LM),主要思想就是假設一個樣本點的特征,可以完全由其相鄰點的特征線性表示。所謂相鄰點,就是通過KNN得到的最近鄰。
所以第一步就是優(yōu)化下面的目標:
\Theta(\boldsymbol{W})=\sum_{i=1}^{n}\left\|\boldsymbol{x}_{i}-\sum_{j \neq i} w_{i j} \boldsymbol{x}_{j}\right\|^{2}

學習出相似節(jié)點之間的互相表示的方法,即某個點是如何被其他的鄰近點所線性表示的。

然后,再去優(yōu)化這個目標,得到標簽分布:
\begin{array}{l} \Psi(\boldsymbolhr9byda)=\sum_{i=1}^{n}\left\|\boldsymbolsrfov9n_{i}-\sum_{j \neq i} w_{i j} \boldsymbol9xtqin4_{j}\right\|^{2} \\ \text { s.t. } \quad d_{\boldsymbol{x}_{i}}^{y_{i}} l_{\boldsymbol{x}_{i}}^{y_{l}}>\lambda, \forall 1 \leq i \leq n, 1 \leq j \leq c \end{array}

以上是三種傳統(tǒng)的Label Enhancement方法。雖然傳統(tǒng),但是其思想我覺得我覺得都挺有意思的,由其是FCM和LP方法。

本文提出的新方法:GLLE

GLLE全稱為Graph Laplacian Label Enhancement。也是一種基于圖的思想的方法。

別看這個名字這么復雜,其實其思想很簡單:

在訓練標簽預測模型的同時,也考慮學習標簽間的相似性。

假設我們的預測模型是這樣的:
\boldsymbol4ekrfao_{i}=\boldsymbol{W}^{\top} \varphi\left(\boldsymbol{x}_{i}\right)+\boldsymbol=\hat{\boldsymbol{W}} \boldsymbol{\phi}_{i}

這里的d,就是要學習的標簽分布,W就是這個預測模型的參數。

根據前面提到的思想,作者設計的目標函數是這樣的,由兩部分組成
\min _{\hat{\boldsymbol{W}}} L(\hat{\boldsymbol{W}})+\lambda \Omega(\hat{\boldsymbol{W}})

前一個部分,就是一個普通的MSE損失函數或最小二乘損失:
L(\hat{\boldsymbol{W}})=\sum_{i=1}^{n}\left\|\hat{\boldsymbol{W}} \boldsymbol{\phi}_{i}-\boldsymbol{l}_{i}\right\|^{2}
如果只優(yōu)化這個目標,那么得到的就是一個傾向于one-hot/logical label的預測模型。

第二部分,希望相似的樣本其分布也相似
\Omega(\hat{\boldsymbol{W}})=\sum_{i, j} a_{i j}\left\|\boldsymbolenk1cmn_{i}-\boldsymbol2h9n4p6_{j}\right\|^{2}
其中這里的a是表達樣本i和j之間的相似系數,公式如下:
a_{i j}=\left\{\begin{array}{cc} \exp \left(-\frac{\left\|\boldsymbol{x}_{i}-\boldsymbol{x}_{j}\right\|^{2}}{2 \sigma^{2}}\right) & \text { if } \boldsymbol{x}_{j} \in N(i) \\ 0 & \text { otherwise } \end{array}\right.

可以發(fā)現,這里計算相似性的方法,跟Label Propagation十分相似,只是多了一個“僅在最近鄰范圍內計算相似度”這樣的限制,因此作者稱之為“l(fā)ocal similarity matrix”。

后面作者當然扯了一大堆這個目標怎么求解這個優(yōu)化問題巴拉巴拉,我是不太懂的,感覺是可以使用梯度下降法來求的。

總之,可以看出這是一個有兩個目標的優(yōu)化問題,通過一個λ參數控制二者的比例,同時優(yōu)化兩個方面,雖然兩個方向上都不會最優(yōu),但是可以兼顧兩個方面的效果,即最后得到的label distribution(LD)既逼近logical label,同時相似樣本之間的LD也是類似的。

各個方法結果對比:

作者主要使用了兩種方法進行效果對比:

  • 從logical label恢復到原本的label distribution的水平
  • 利用得到的label distribution來訓練LDL模型看預測效果

對于恢復效果,有一個自制三維數據集的可視化:

image.png

可以看出,GLLE和LP都比較接近ground truth了。

另外在其他數據集上,作者通過計算相似度來衡量使用各個LE方法來進行模型訓練的效果:

image.png

還有一個平均排名:

image.png

看完了這些實驗結果,我最大的感覺就是:

LP這個方法真好的!又簡單,效果又好!(基本比復雜的GLLE差不了多少,而且GLLE這個λ調參估計挺麻煩的)
但是GLLE的方法,其實也給了我們很多啟發(fā),畢竟相比于LP這種無監(jiān)督的方法,有監(jiān)督的方法肯定靈活性更強,所以取得效果的提示也是很正常的。


?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,797評論 6 531
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發(fā)現死者居然都...
    沈念sama閱讀 98,179評論 3 414
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事?!?“怎么了?”我有些...
    開封第一講書人閱讀 175,628評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,642評論 1 309
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,444評論 6 405
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 54,948評論 1 321
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,040評論 3 440
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,185評論 0 287
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發(fā)現了一具尸體,經...
    沈念sama閱讀 48,717評論 1 333
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,602評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,794評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,316評論 5 358
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 44,045評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,418評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,671評論 1 281
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,414評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,750評論 2 370

推薦閱讀更多精彩內容