標簽增強技術

LearnFromPapers系列——標簽增強技術（Label Enhancement）

前言：我們習慣于使用one-hot標簽來進行模型的訓練，但是有沒有辦法可以構造出更好的標簽呢？本文主要根據東南大學的論文“Label Enhancement for Label Distribution Learning”進行解讀和整理，從而認識并理解在分類問題中“標簽增強”技術。

image.png

論文標題：Label Enhancement for Label Distribution Learning
會議/期刊：IJCAI-18
團隊：東南大學計算機科學與工程學院

標簽分布 & 標簽分布學習

標簽分布學習（Label Distribution Learning，LDL）的任務是讓模型去學習一個樣本的標簽分布（Label Distribution），即每一個維度都反映對應標簽程度的一種概率分布。這樣的標簽概率分布可以比one-hot更好地表示一個樣本的情況，原因主要有以下：

一個標簽跟樣本是否有關，是一個相對的概念，即沒有一個“判斷是否相關”的絕對標準；
當多個標簽都跟樣本相關時，它們的相關程度一般也是不同的；
多個跟樣本不相關的標簽，它們的不相關程度也一般是不同的。

論文作者給出了幾個生動的例子：

image.png

然而，LDL任務的主要困難之一就是，標簽分布是十分難以獲取的。大多數的分類數據集都不具備這樣的條件，都只有一些ligical label。所謂logical label，就是指one-hot或者multi-one-hot的label。要獲取真實的標簽分布，理論上是需要對同一樣本進行大量的打標，得到其統(tǒng)計分布的，但這背后的人工成本是無法承受的。

主要思想

一個自然的解決辦法就是，既然無法從外部得到樣本的標簽分布，那就使用樣本集自身的特征空間來構造出這樣的標簽分布。

image.png

本文把這一類的方法稱為label Enhancement（LE），并介紹了幾種LE的方法，下面分別作簡單的介紹。

幾種經典的LE方法

1. Fuzzy C-Means(FCM)

Fuzzy C-Means 是一個代表性的“軟聚類”算法（soft clustering）。它實際上是對K-Means這種“硬聚類”算法的一種改進。K-means聚類只能將一個點劃分到一個簇里，而FCM則可以給出一個點歸屬于各個簇的概率分布。

FCM的目標函數為：
$\underset{C}{\arg \min } \sum_{i=1}^{n} \sum_{j=1}^{c} w_{i j}^{m}\left\|\mathbf{x}_{i}-\mathbf{c}_{j}\right\|^{2}$
其中 $x_i$ 是樣本點的特征向量， $c_j$ 是簇中心的特征向量， $w^m$ 是每個點歸屬于每個簇的系數， $c$ 類別數， $n$ 是樣本總數。
$w^m$ 的計算公式如下，顯然離某個簇越近，其系數就越大：
$w_{i j}=\frac{1}{\sum_{k=1}^{c}\left(\frac{\left\|\mathbf{x}_{i}-\mathbf{c}_{j}\right\|}{\left\|\mathbf{x}_{i}-\mathbf{c}_{k}\right\|}\right)^{\frac{2}{m-1}}}$
而簇中心的計算方法為，就是所有樣本點特征的一個加權平均，其中m是超參數，控制fuzzy的程度，越大簇之間就越模糊：
$c_{k}=\frac{\sum_{x} w_{k}(x)^{m} x}{\sum_{x} w_{k}(x)^{m}}$

通過FCM算法，如果設置k個簇，樣本 $x_i$ 的簇概率分布就是 $w_i$ 這個c維向量。

然后，構造一個分類類別（classes）與聚類簇（clusters）之間的一個軟連接矩陣k×c的矩陣A：
$A_j = A_j + w_i$
即A的第j行（代表第j個類別），是由所有屬于該類別的樣本的簇分布累加而得到的。

最后，通過矩陣A與 $w_i$ 點乘，就可以將每個樣本的簇分布（c個簇），轉化為標簽分布（k個標簽）了。

上面的過程，可以通過下圖來表達：

image.png

2.Label Propagation（LP）

LP的主要思想是通過樣本之間的相似度矩陣，來逐步調整原本的logical label representation。

第一步，通過下面的公式，計算N個樣本之間的一個N×N的相似性矩陣A：
$a_{i j}=\left\{\begin{array}{cl} \exp \left(-\frac{\left\|\boldsymbol{x}_{i}-\boldsymbol{x}_{j}\right\|^{2}}{2}\right) & \text { if } i \neq j \\ 0 & \text { if } i=j \end{array}\right.$

然后，根據下面的公式，構建label propagation matrix，即標簽傳導矩陣P：
$\boldsymbol{P}=\hat{\boldsymbol{A}}^{-\frac{1}{2}} \boldsymbol{A} \hat{\boldsymbol{A}}^{-\frac{1}{2}}$

看到這個公式，熟悉GCN的人會發(fā)現，這不就是拉普拉斯矩陣嘛，目的主要是為了讓原本的A矩陣歸一化和對稱。圖神經網絡的核心，也是鄰居節(jié)點之間的互相傳播，跟這里的相似樣本之間，進行標簽信息的傳播是類似的思想。

有了這個P傳播矩陣，就可以來通過“傳播”來構造標簽分布D了：
$\boldsymbol{D}^{(t)}=\alpha \boldsymbol{P} \boldsymbol{D}^{(t-1)}+(1-\alpha) \boldsymbol{L}$
其中L是原本的one-hot的logical label矩陣，D使用L來初始化。

通過不斷迭代上式，就可以得到一個趨于穩(wěn)定的標簽分布矩陣D了。

還是照例畫一個圖：

image.png

3.Mainifold Learning（LM）

除了LP之外，還有一個Mainifold Learning（LM），主要思想就是假設一個樣本點的特征，可以完全由其相鄰點的特征線性表示。所謂相鄰點，就是通過KNN得到的最近鄰。
所以第一步就是優(yōu)化下面的目標：
$\Theta(\boldsymbol{W})=\sum_{i=1}^{n}\left\|\boldsymbol{x}_{i}-\sum_{j \neq i} w_{i j} \boldsymbol{x}_{j}\right\|^{2}$

學習出相似節(jié)點之間的互相表示的方法，即某個點是如何被其他的鄰近點所線性表示的。

然后，再去優(yōu)化這個目標，得到標簽分布：
$\begin{array}{l} \Psi(\boldsymbolhr9byda)=\sum_{i=1}^{n}\left\|\boldsymbolsrfov9n_{i}-\sum_{j \neq i} w_{i j} \boldsymbol9xtqin4_{j}\right\|^{2} \\ \text { s.t. } \quad d_{\boldsymbol{x}_{i}}^{y_{i}} l_{\boldsymbol{x}_{i}}^{y_{l}}>\lambda, \forall 1 \leq i \leq n, 1 \leq j \leq c \end{array}$

以上是三種傳統(tǒng)的Label Enhancement方法。雖然傳統(tǒng)，但是其思想我覺得我覺得都挺有意思的，由其是FCM和LP方法。

本文提出的新方法：GLLE

GLLE全稱為Graph Laplacian Label Enhancement。也是一種基于圖的思想的方法。

別看這個名字這么復雜，其實其思想很簡單：

在訓練標簽預測模型的同時，也考慮學習標簽間的相似性。

假設我們的預測模型是這樣的：
$\boldsymbol4ekrfao_{i}=\boldsymbol{W}^{\top} \varphi\left(\boldsymbol{x}_{i}\right)+\boldsymbol=\hat{\boldsymbol{W}} \boldsymbol{\phi}_{i}$

這里的d，就是要學習的標簽分布，W就是這個預測模型的參數。

根據前面提到的思想，作者設計的目標函數是這樣的，由兩部分組成：
$\min _{\hat{\boldsymbol{W}}} L(\hat{\boldsymbol{W}})+\lambda \Omega(\hat{\boldsymbol{W}})$

前一個部分，就是一個普通的MSE損失函數或最小二乘損失：
$L(\hat{\boldsymbol{W}})=\sum_{i=1}^{n}\left\|\hat{\boldsymbol{W}} \boldsymbol{\phi}_{i}-\boldsymbol{l}_{i}\right\|^{2}$
如果只優(yōu)化這個目標，那么得到的就是一個傾向于one-hot/logical label的預測模型。

第二部分，希望相似的樣本其分布也相似：
$\Omega(\hat{\boldsymbol{W}})=\sum_{i, j} a_{i j}\left\|\boldsymbolenk1cmn_{i}-\boldsymbol2h9n4p6_{j}\right\|^{2}$
其中這里的a是表達樣本i和j之間的相似系數，公式如下：
$a_{i j}=\left\{\begin{array}{cc} \exp \left(-\frac{\left\|\boldsymbol{x}_{i}-\boldsymbol{x}_{j}\right\|^{2}}{2 \sigma^{2}}\right) & \text { if } \boldsymbol{x}_{j} \in N(i) \\ 0 & \text { otherwise } \end{array}\right.$

可以發(fā)現，這里計算相似性的方法，跟Label Propagation十分相似，只是多了一個“僅在最近鄰范圍內計算相似度”這樣的限制，因此作者稱之為“l(fā)ocal similarity matrix”。

后面作者當然扯了一大堆這個目標怎么求解這個優(yōu)化問題巴拉巴拉，我是不太懂的，感覺是可以使用梯度下降法來求的。

總之，可以看出這是一個有兩個目標的優(yōu)化問題，通過一個λ參數控制二者的比例，同時優(yōu)化兩個方面，雖然兩個方向上都不會最優(yōu)，但是可以兼顧兩個方面的效果，即最后得到的label distribution（LD）既逼近logical label，同時相似樣本之間的LD也是類似的。

各個方法結果對比：

作者主要使用了兩種方法進行效果對比：

從logical label恢復到原本的label distribution的水平
利用得到的label distribution來訓練LDL模型看預測效果

對于恢復效果，有一個自制三維數據集的可視化：

image.png

可以看出，GLLE和LP都比較接近ground truth了。

另外在其他數據集上，作者通過計算相似度來衡量使用各個LE方法來進行模型訓練的效果：

image.png

還有一個平均排名：

image.png

看完了這些實驗結果，我最大的感覺就是：

LP這個方法真好的！又簡單，效果又好！（基本比復雜的GLLE差不了多少，而且GLLE這個λ調參估計挺麻煩的）
但是GLLE的方法，其實也給了我們很多啟發(fā)，畢竟相比于LP這種無監(jiān)督的方法，有監(jiān)督的方法肯定靈活性更強，所以取得效果的提示也是很正常的。

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發(fā)布，文章內容僅代表作者本人觀點，簡書系信息發(fā)布平臺，僅提供信息存儲服務。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 227,797評論 6贊 531
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發(fā)現死者居然都...
沈念sama閱讀 98,179評論 3贊 414
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事?！?“怎么了？”我有些...
開封第一講書人閱讀 175,628評論 0贊 373
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 62,642評論 1贊 309
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 71,444評論 6贊 405
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 54,948評論 1贊 321
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,040評論 3贊 440
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 42,185評論 0贊 287
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發(fā)現了一具尸體，經...
沈念sama閱讀 48,717評論 1贊 333
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 40,602評論 3贊 354
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現自己被綠了。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 42,794評論 1贊 369
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,316評論 5贊 358
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發(fā)生泄漏。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 44,045評論 3贊 347
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 34,418評論 0贊 26
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 35,671評論 1贊 281
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 51,414評論 3贊 390
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 47,750評論 2贊 370

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

標簽增強技術

標簽增強技術

LearnFromPapers系列——標簽增強技術（Label Enhancement）

標簽分布 & 標簽分布學習

主要思想