論文鏈接:https://arxiv.org/abs/1806.05662
【摘要】基于深度學(xué)習(xí)的遷移學(xué)習(xí)的主流方法一般是從一個(gè)任務(wù)中學(xué)習(xí)到可遷移到其他任務(wù)的通用特征向量,例如語(yǔ)言中的單詞嵌入和視覺(jué)中的預(yù)訓(xùn)練卷積特征(比如imagenet model 的預(yù)訓(xùn)練也是一種遷移),也就是在特征層面做遷移。然而,這些方法通常只是遷移一元特征,卻很大程度上忽略了更結(jié)構(gòu)化的圖結(jié)構(gòu)表征。本文探索了從大規(guī)模未標(biāo)記數(shù)據(jù)中(無(wú)監(jiān)督學(xué)習(xí))學(xué)習(xí)捕獲數(shù)據(jù)單元對(duì)(例如單詞或像素)之間依賴關(guān)系的通用隱藏關(guān)系圖,并將這些圖傳遞給下游任務(wù)的可能性。我們提出的遷移學(xué)習(xí)框架提高了各種任務(wù)的性能,包括問(wèn)答系統(tǒng)、自然語(yǔ)言推理、情感分析和圖像分類。我們的測(cè)試還表明,學(xué)習(xí)到的圖形是通用的,在圖沒(méi)有經(jīng)過(guò)訓(xùn)練的情況下,可以遷移到不同嵌入(包括 GloVe 嵌入、ELMo 嵌入和任務(wù)特定的 RNN 隱藏單元)或無(wú)嵌入單元(如圖形像素)。
相關(guān)介紹
深度學(xué)習(xí)的進(jìn)展很大程度上依賴于諸如卷積網(wǎng)絡(luò)和循環(huán)網(wǎng)絡(luò)之類的復(fù)雜網(wǎng)絡(luò)架構(gòu)以及注意力機(jī)制等等。由于其內(nèi)置的「先天優(yōu)勢(shì)」,所以這些架構(gòu)雖然具有較高的表征能力,它們主要在網(wǎng)格狀或順序結(jié)構(gòu)上運(yùn)行。因此,CNN 和 RNN 在很大程度上依賴強(qiáng)大的表達(dá)能力來(lái)模擬復(fù)雜的結(jié)構(gòu)現(xiàn)象,它們沒(méi)有明確利用結(jié)構(gòu)和圖表征。
相比之下,各種現(xiàn)實(shí)世界的數(shù)據(jù)表現(xiàn)出比簡(jiǎn)單的網(wǎng)格狀或順序結(jié)構(gòu)具有更豐富的關(guān)系圖結(jié)構(gòu)。例如在在語(yǔ)言領(lǐng)域,語(yǔ)言學(xué)家使用解析樹(shù)來(lái)表示單詞之間的句法依賴;信息檢索系統(tǒng)利用知識(shí)圖來(lái)反映實(shí)體關(guān)系;幾乎所有自然語(yǔ)言數(shù)據(jù)都普遍存在示例結(jié)構(gòu),這暗示了跨任務(wù)轉(zhuǎn)移的可能性。這些觀察也可以推廣到其他諸如視覺(jué)之類的領(lǐng)域,其中建模像素之間的關(guān)系被證明是有用的。
如圖 2:傳統(tǒng)遷移學(xué)習(xí)與新遷移學(xué)習(xí)框架的對(duì)比。GLoMo 不是遷移特征,而是遷移網(wǎng)絡(luò)輸出的圖形。圖形與任務(wù)特定的特征(task B 特征)(例如嵌入或隱藏狀態(tài))相乘,以產(chǎn)生結(jié)構(gòu)感知特征用于別的任務(wù)(task B)。所謂的graph其實(shí)就是個(gè)依賴矩陣,稱之為親和矩陣。
論文貢獻(xiàn)
1、打破基于特征的深度遷移學(xué)習(xí)的標(biāo)準(zhǔn)化規(guī)范,定義了一種全新的遷移學(xué)習(xí)的范式;
2、提出了一種新的無(wú)監(jiān)督隱藏圖學(xué)習(xí)框架,稱之為 GLoMo(Graphs from LOw-level unit MOdeling,低級(jí)單位建模圖)
3、提出的框架解耦了圖(graph)與特征(feature),以數(shù)據(jù)驅(qū)動(dòng)的方式學(xué)習(xí)數(shù)據(jù)中的通用結(jié)構(gòu)。我們對(duì)學(xué)習(xí)可遷移隱藏關(guān)系圖感興趣,其中隱藏圖的節(jié)點(diǎn)是輸入單元,例如句子中的所有單詞。隱藏關(guān)系圖學(xué)習(xí)的任務(wù)是學(xué)習(xí)一個(gè)相似矩陣,其中權(quán)重(可能為零)捕獲任意一對(duì)輸入單元之間的依賴關(guān)系;
4、實(shí)驗(yàn)結(jié)果表明,GLoMo 提高了問(wèn)答、自然語(yǔ)言推理和情感分析等各種語(yǔ)言任務(wù)的性能。我們還證實(shí),學(xué)習(xí)到的圖形是通用的,學(xué)習(xí)到的圖在不經(jīng)過(guò)訓(xùn)練的情況下,可以很好的跟各種特征集(GloVe 嵌入 [28]、ELMo 嵌入 [ 29 ] 和任務(wù)特定的 RNN 狀態(tài))任務(wù)使用。并且在圖像領(lǐng)域做的分類任務(wù)也證明其有效性。
無(wú)監(jiān)督學(xué)習(xí)部分
給定一個(gè)一維的輸入,x = (x 1 , · · · , x T ),x t 代表在位置t , T 是輸入序列的長(zhǎng)度。目標(biāo)是學(xué)習(xí) (T × T ) 的親和矩陣 G,矩陣G 是不對(duì)稱的,G ij 捕捉了 xi 與 xj 之間的依賴關(guān)系。
整個(gè)框架分為無(wú)監(jiān)督學(xué)習(xí)階段和遷移階段,在無(wú)監(jiān)督學(xué)習(xí)階段需要訓(xùn)練兩個(gè)網(wǎng)絡(luò),其中一個(gè)是graph predictor network 叫做 g 和一個(gè) feature predictor network 叫做 f 。
給 g 的輸入為 x, G = g(x). G 是一個(gè) 三維張量 (L×T ×T),L是產(chǎn)生圖的網(wǎng)絡(luò)的層數(shù),T×T是親和矩陣。
然后將 G 和 原始的 x 輸入到 f (feature predictor network) 中。
在遷移階段,輸入是 x' , 先用g 來(lái)提取 親和矩陣 G = g(x‘ ),然后將G乘以 任務(wù)特定特征 以此作為嵌入或者隱狀態(tài)的輸入,然后此時(shí) 網(wǎng)絡(luò) f 是忽略的。
Graph Predictor
graph predictor 包含一個(gè) multi-layer CNNs, 一個(gè) key CNN, 和一個(gè)query CNN. 輸入為x, key CNN 輸出序列(k 1 , · · · , k T ) ,query CNN 輸出序列(q 1 , · · · , q T ). 在第L層計(jì)算G如下式:
Feature Predictor
Feature Predictor 的輸入是F(....如下式) 和 G,F(xiàn) 序列的迭代計(jì)算如下式:
F0初始化為x上式中 v 操作可以是GRU單元等。
Objective Function
D代表預(yù)測(cè)的文本的長(zhǎng)度,在最頂層。在位置t,用 F (ft)特征序列中對(duì)應(yīng)的元素來(lái)初始化RNN中的隱狀態(tài),最后得出對(duì)應(yīng)x t 的預(yù)測(cè)。
必要條件
該框架中有很多必要條件
1、解耦圖與特征
2、稀疏性(用relu 不是softmax)
3、分層圖表達(dá)
4、單元級(jí)別目標(biāo)
5、順序預(yù)測(cè)(傳統(tǒng)是預(yù)測(cè)下一個(gè),本文拓展到了預(yù)測(cè)長(zhǎng)度達(dá)到D)
作者通過(guò)實(shí)驗(yàn)證明了以上所有因素都對(duì)框架做出了貢獻(xiàn)
隱式圖遷移
這部分介紹如何將graph predictor g 遷移到下游任務(wù)。
輸入特征 x' 來(lái)自下游任務(wù),g的每一層都會(huì)產(chǎn)生G,m是權(quán)重。對(duì)于下游任務(wù)網(wǎng)絡(luò)來(lái)說(shuō),假設(shè)它也是多層神經(jīng)網(wǎng)絡(luò),H是特征。
實(shí)驗(yàn)數(shù)據(jù)集
SquAD:?jiǎn)柎饠?shù)據(jù)集
MNLI :自然語(yǔ)言推斷數(shù)據(jù)集(跟離散數(shù)學(xué)里邊的蘊(yùn)涵一樣 P → Q)
IMDB: 情感分析數(shù)據(jù)集,來(lái)自電影評(píng)論
實(shí)驗(yàn)結(jié)果
在問(wèn)答和圖像分類的對(duì)比實(shí)驗(yàn)中,精度都有提高。
注:本文部分小內(nèi)容摘自機(jī)器之心