BERT——自監(jiān)督學(xué)習(xí)的典范

1 自監(jiān)督學(xué)習(xí)的概念

在機(jī)器學(xué)習(xí)中,最常見的是監(jiān)督學(xué)習(xí)(Supervised learning)。假設(shè)模型的輸入是x,輸出是y,我們?nèi)绾问鼓P洼敵鑫覀兤谕?img class="math-inline" src="https://math.jianshu.com/math?formula=y" alt="y" mathimg="1">呢?我們得擁有已標(biāo)注的(label)的數(shù)據(jù),例如圖片識(shí)別,我們得有一堆的圖片,并且這些圖片被標(biāo)注了是什么。然后通過這些已標(biāo)注的數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練,使模型的輸出y盡可能地接近標(biāo)簽y',這是監(jiān)督學(xué)習(xí)。那么什么是自監(jiān)督學(xué)習(xí)呢?假設(shè)我們擁有一堆的數(shù)據(jù),但是沒有標(biāo)注,我們想辦法將這堆數(shù)據(jù)x分成兩個(gè)部分,一部分作為模型的輸入x',一部分作為模型的標(biāo)簽x''。然后對(duì)模型進(jìn)行訓(xùn)練,使模型地輸出y盡可能地接近標(biāo)簽x''。注意這里x''不是人標(biāo)注的,而是數(shù)據(jù)里本來就有的。這說起來有點(diǎn)抽象,但是通過BERT這個(gè)例子就很容易明白了。

監(jiān)督學(xué)習(xí)和自監(jiān)督學(xué)習(xí)

2 BERT概述

BERT的全稱是Bidirectional Encoder Representation from Transformers,即雙向Transformer的Encoder。因此BERT的網(wǎng)絡(luò)架構(gòu)和Transformer的Encoder是一樣的,關(guān)于Transformer的細(xì)節(jié)請(qǐng)看上一節(jié)。因此BERT的任務(wù)就是輸入一個(gè)序列,然后輸出一個(gè)序列,輸出序列和輸入序列的長(zhǎng)度是一樣的。通過Transformer中的自注意力機(jī)制,BERT具有考慮序列全局的能力。由于BERT一般用于自然語言處理,所以BERT的輸入一般使一排文字,然后輸出一組向量,向量的個(gè)數(shù)和文字的個(gè)數(shù)是一樣的。

3 BERT的訓(xùn)練

所謂自監(jiān)督學(xué)習(xí),和監(jiān)督學(xué)習(xí)不同的地方就在于訓(xùn)練。BERT的訓(xùn)練方式有兩種:Masked Language Model和Next Sentence Prediction

3.1 Masked Language Model

Masked Language Model的工作機(jī)制如下圖所示,類似于讓BERT做完形填空。在訓(xùn)練過程中,隨機(jī)蓋掉句子中的一些字,這些被蓋掉的字要么替換成一個(gè)特殊符號(hào)“MASK”,要么隨機(jī)替換成其他字。然后將替換后的句子當(dāng)成BERT的輸入,被蓋掉的字對(duì)應(yīng)的輸出向量通過一個(gè)Linear層和softmax操作之后輸出一個(gè)概率分布。前面講transformer的時(shí)候,講到了這個(gè)概率分布向量的長(zhǎng)度和字典的長(zhǎng)度是一樣的,每個(gè)字都有一個(gè)對(duì)應(yīng)的概率,概率最大的字就是最后的預(yù)測(cè)結(jié)果。在訓(xùn)練過程中,要使預(yù)測(cè)輸出的字和被蓋掉的字盡可能一致。這其實(shí)就是一個(gè)分類問題,類別的數(shù)目和字典的大小一樣,損失函數(shù)是交叉熵。通過這種簡(jiǎn)單的方式就實(shí)現(xiàn)了自監(jiān)督學(xué)習(xí),它不需要我們?nèi)ト斯?biāo)注數(shù)據(jù),它的標(biāo)簽來自于數(shù)據(jù)本身,這是非常巧妙的。


Masked Language Model

7.3.2 Next Sentence Prediction

Next Sentence Prediction的工作機(jī)制如下圖所示。在Next Sentence Prediction的訓(xùn)練任務(wù)中,BERT的輸入是兩個(gè)句子加上兩個(gè)特別的符號(hào)“CLS”,“SEP”。其中“CLS”是一個(gè)開始符號(hào),“SEP”將兩個(gè)句子隔開。Next Sentence Prediction的任務(wù)是要預(yù)測(cè)這兩個(gè)句子是否是相接的,“CLS”輸出的向量通過Linear層后輸出“yes”和“no”,“yes”表示兩個(gè)句子是前后相接的,“no”則相反。訓(xùn)練數(shù)據(jù)的正例是正常的一篇文章中上下連貫的兩句話,負(fù)例是將正常相接的下一句話隨即替換成另外一句話。但是研究表明,這種訓(xùn)練任務(wù)對(duì)于BERT的訓(xùn)練用處不大。因此BERT的訓(xùn)練主要還是依賴于Masked Language Model。


Next Sentence Prediction

4 BERT的應(yīng)用

BERT在自然語言處理領(lǐng)域基本上都可以用上,其應(yīng)用機(jī)制如下圖所示,分為預(yù)訓(xùn)練(Pre-train)微調(diào)(Fine-tune) 兩個(gè)部分。
預(yù)訓(xùn)練(Pre-train) 就是指上面所說的Masked Language Model和Next Sentence Prediction兩個(gè)自監(jiān)督訓(xùn)練任務(wù)。這部分工作實(shí)際上由一些搞深度學(xué)習(xí)的大戶做好了,比如google、訊飛等,并不需要我們自己訓(xùn)練,我們只需要將人家訓(xùn)練好的BERT拿來用就行了。
微調(diào)(Fine-tune) 是指根據(jù)我們的下游任務(wù)(如機(jī)器翻譯、智能問答、文本標(biāo)注等),再利用下游任務(wù)的少量標(biāo)注數(shù)據(jù)對(duì)下游任務(wù)的參數(shù)進(jìn)行微調(diào)即可。

BERT的應(yīng)用機(jī)制

下面以“基于抽取的智能問答(Extraction-based Question Answering)”為例說明BERT的應(yīng)用機(jī)制。“基于抽取的智能問答”類似于閱讀理解,讓機(jī)器讀一段文字,然后提出幾個(gè)問題,機(jī)器從閱讀到的文字中抽取答案。對(duì)于該任務(wù),模型的輸入就是文章和問題,輸出是兩個(gè)整數(shù)值“s”和“e”。“s”代表答案在文章中的起始位置,“e”代表答案在文章中的結(jié)束位置。例如下圖中第一個(gè)問題的答案是“gravity”,而“gravity”位于文章的第17個(gè)字符(不含標(biāo)點(diǎn)),因此模型的輸出“s=17”,“e=17”。同理,第三個(gè)問題的答案是“within a cloud”,而它們位于第77-79個(gè)字符,因此模型的輸出“s=77”,“e=79”。
基于抽取的智能問答

處理上述這個(gè)問題的做法如下圖所示,模型的輸入是問題和文章,問題和文章通過符號(hào)“SEP”隔開。然后隨機(jī)初始化兩個(gè)向量(圖中的橘黃色向量和藍(lán)色向量),向量的長(zhǎng)度和BERT輸出向量的長(zhǎng)度一樣,然后將這兩個(gè)向量分別去和文章輸出的向量做點(diǎn)積,然后通過Softmax輸出概率分布,概率最大的分別是答案的起始位置和結(jié)束位置。這個(gè)任務(wù)中訓(xùn)練的參數(shù)只有隨機(jī)初始化的兩個(gè)向量,BERT中的參數(shù)都不需要訓(xùn)練的。
基于抽取的智能問答的解法

可以看出利用BERT的預(yù)訓(xùn)練,做下游任務(wù)時(shí)就很簡(jiǎn)單了,訓(xùn)練的參數(shù)也非常少,而且實(shí)踐證明這樣做的效果是非常好的,超過了傳統(tǒng)的一些做法。這就是BERT的魅力所在。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,156評(píng)論 6 531
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 98,401評(píng)論 3 415
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,069評(píng)論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我,道長(zhǎng),這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,873評(píng)論 1 309
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 71,635評(píng)論 6 408
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 55,128評(píng)論 1 323
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,203評(píng)論 3 441
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 42,365評(píng)論 0 288
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 48,881評(píng)論 1 334
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 40,733評(píng)論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 42,935評(píng)論 1 369
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,475評(píng)論 5 358
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 44,172評(píng)論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,582評(píng)論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,821評(píng)論 1 282
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 51,595評(píng)論 3 390
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 47,908評(píng)論 2 372

推薦閱讀更多精彩內(nèi)容