LearnFromPapers系列——標簽增強技術(Label Enhancement)
<center>作者:郭必揚</center>
<center>時間:2020.12.29</center>
前言:我們習慣于使用one-hot標簽來進行模型的訓練,但是有沒有辦法可以構造出更好的標簽呢?本文主要根據東南大學的論文“Label Enhancement for Label Distribution Learning”進行解讀和整理,從而認識并理解在分類問題中“標簽增強”技術。
- 論文標題:Label Enhancement for Label Distribution Learning
- 會議/期刊:IJCAI-18
- 團隊:東南大學 計算機科學與工程學院
標簽分布 & 標簽分布學習
標簽分布學習(Label Distribution Learning,LDL)的任務是讓模型去學習一個樣本的標簽分布(Label Distribution),即每一個維度都反映對應標簽程度的一種概率分布。這樣的標簽概率分布可以比one-hot更好地表示一個樣本的情況,原因主要有以下:
- 一個標簽跟樣本是否有關,是一個相對的概念,即沒有一個“判斷是否相關”的絕對標準;
- 當多個標簽都跟樣本相關時,它們的相關程度一般也是不同的;
- 多個跟樣本不相關的標簽,它們的不相關程度也一般是不同的。
論文作者給出了幾個生動的例子:
然而,LDL任務的主要困難之一就是,標簽分布是十分難以獲取的。大多數的分類數據集都不具備這樣的條件,都只有一些ligical label。所謂logical label,就是指one-hot或者multi-one-hot的label。要獲取真實的標簽分布,理論上是需要對同一樣本進行大量的打標,得到其統(tǒng)計分布的,但這背后的人工成本是無法承受的。
主要思想
一個自然的解決辦法就是,既然無法從外部得到樣本的標簽分布,那就使用樣本集自身的特征空間來構造出這樣的標簽分布。
本文把這一類的方法稱為label Enhancement(LE),并介紹了幾種LE的方法,下面分別作簡單的介紹。
幾種經典的LE方法
1. Fuzzy C-Means(FCM)
Fuzzy C-Means 是一個代表性的“軟聚類”算法(soft clustering)。它實際上是對K-Means這種“硬聚類”算法的一種改進。K-means聚類只能將一個點劃分到一個簇里,而FCM則可以給出一個點歸屬于各個簇的概率分布。
FCM的目標函數為:
其中是樣本點的特征向量,
是簇中心的特征向量,
是每個點歸屬于每個簇的系數,
類別數,
是樣本總數。
的計算公式如下,顯然離某個簇越近,其系數就越大:
而簇中心的計算方法為,就是所有樣本點特征的一個加權平均,其中m是超參數,控制fuzzy的程度,越大簇之間就越模糊:
通過FCM算法,如果設置k個簇,樣本的簇概率分布就是
這個c維向量。
然后,構造一個分類類別(classes)與聚類簇(clusters)之間的一個軟連接矩陣k×c的矩陣A:
即A的第j行(代表第j個類別),是由所有屬于該類別的樣本的簇分布累加而得到的。
最后,通過矩陣A與點乘,就可以將每個樣本的簇分布(c個簇),轉化為標簽分布(k個標簽)了。
上面的過程,可以通過下圖來表達:
2.Label Propagation(LP)
LP的主要思想是通過樣本之間的相似度矩陣,來逐步調整原本的logical label representation。
第一步,通過下面的公式,計算N個樣本之間的一個N×N的相似性矩陣A:
然后,根據下面的公式,構建label propagation matrix,即標簽傳導矩陣P:
看到這個公式,熟悉GCN的人會發(fā)現,這不就是拉普拉斯矩陣嘛,目的主要是為了讓原本的A矩陣歸一化和對稱。圖神經網絡的核心,也是鄰居節(jié)點之間的互相傳播,跟這里的相似樣本之間,進行標簽信息的傳播是類似的思想。
有了這個P傳播矩陣,就可以來通過“傳播”來構造標簽分布D了:
其中L是原本的one-hot的logical label矩陣,D使用L來初始化。
通過不斷迭代上式,就可以得到一個趨于穩(wěn)定的標簽分布矩陣D了。
還是照例畫一個圖:
3.Mainifold Learning(LM)
除了LP之外,還有一個Mainifold Learning(LM),主要思想就是假設一個樣本點的特征,可以完全由其相鄰點的特征線性表示。所謂相鄰點,就是通過KNN得到的最近鄰。
所以第一步就是優(yōu)化下面的目標:
學習出相似節(jié)點之間的互相表示的方法,即某個點是如何被其他的鄰近點所線性表示的。
然后,再去優(yōu)化這個目標,得到標簽分布:
以上是三種傳統(tǒng)的Label Enhancement方法。雖然傳統(tǒng),但是其思想我覺得我覺得都挺有意思的,由其是FCM和LP方法。
本文提出的新方法:GLLE
GLLE全稱為Graph Laplacian Label Enhancement。也是一種基于圖的思想的方法。
別看這個名字這么復雜,其實其思想很簡單:
在訓練標簽預測模型的同時,也考慮學習標簽間的相似性。
假設我們的預測模型是這樣的:
這里的d,就是要學習的標簽分布,W就是這個預測模型的參數。
根據前面提到的思想,作者設計的目標函數是這樣的,由兩部分組成:
前一個部分,就是一個普通的MSE損失函數或最小二乘損失:
如果只優(yōu)化這個目標,那么得到的就是一個傾向于one-hot/logical label的預測模型。
第二部分,希望相似的樣本其分布也相似:
其中這里的a是表達樣本i和j之間的相似系數,公式如下:
可以發(fā)現,這里計算相似性的方法,跟Label Propagation十分相似,只是多了一個“僅在最近鄰范圍內計算相似度”這樣的限制,因此作者稱之為“l(fā)ocal similarity matrix”。
后面作者當然扯了一大堆這個目標怎么求解這個優(yōu)化問題巴拉巴拉,我是不太懂的,感覺是可以使用梯度下降法來求的。
總之,可以看出這是一個有兩個目標的優(yōu)化問題,通過一個λ參數控制二者的比例,同時優(yōu)化兩個方面,雖然兩個方向上都不會最優(yōu),但是可以兼顧兩個方面的效果,即最后得到的label distribution(LD)既逼近logical label,同時相似樣本之間的LD也是類似的。
各個方法結果對比:
作者主要使用了兩種方法進行效果對比:
- 從logical label恢復到原本的label distribution的水平
- 利用得到的label distribution來訓練LDL模型看預測效果
對于恢復效果,有一個自制三維數據集的可視化:
可以看出,GLLE和LP都比較接近ground truth了。
另外在其他數據集上,作者通過計算相似度來衡量使用各個LE方法來進行模型訓練的效果:
還有一個平均排名:
看完了這些實驗結果,我最大的感覺就是:
LP這個方法真好的!又簡單,效果又好!(基本比復雜的GLLE差不了多少,而且GLLE這個λ調參估計挺麻煩的)
但是GLLE的方法,其實也給了我們很多啟發(fā),畢竟相比于LP這種無監(jiān)督的方法,有監(jiān)督的方法肯定靈活性更強,所以取得效果的提示也是很正常的。