BERT——自監(jiān)督學(xué)習(xí)的典范

1 自監(jiān)督學(xué)習(xí)的概念

在機(jī)器學(xué)習(xí)中，最常見的是監(jiān)督學(xué)習(xí)（Supervised learning）。假設(shè)模型的輸入是 $x$ ，輸出是 $y$ ，我們?nèi)绾问鼓Ｐ洼敵鑫覀兤谕?img class="math-inline" src="https://math.jianshu.com/math?formula=y" alt="y" mathimg="1">呢？我們得擁有已標(biāo)注的（label）的數(shù)據(jù)，例如圖片識(shí)別，我們得有一堆的圖片，并且這些圖片被標(biāo)注了是什么。然后通過這些已標(biāo)注的數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練，使模型的輸出 $y$ 盡可能地接近標(biāo)簽 $y'$ ，這是監(jiān)督學(xué)習(xí)。那么什么是自監(jiān)督學(xué)習(xí)呢？假設(shè)我們擁有一堆的數(shù)據(jù)，但是沒有標(biāo)注，我們想辦法將這堆數(shù)據(jù) $x$ 分成兩個(gè)部分，一部分作為模型的輸入 $x'$ ，一部分作為模型的標(biāo)簽 $x''$ 。然后對(duì)模型進(jìn)行訓(xùn)練，使模型地輸出 $y$ 盡可能地接近標(biāo)簽 $x''$ 。注意這里 $x''$ 不是人標(biāo)注的，而是數(shù)據(jù)里本來就有的。這說起來有點(diǎn)抽象，但是通過BERT這個(gè)例子就很容易明白了。

監(jiān)督學(xué)習(xí)和自監(jiān)督學(xué)習(xí)

2 BERT概述

BERT的全稱是Bidirectional Encoder Representation from Transformers，即雙向Transformer的Encoder。因此BERT的網(wǎng)絡(luò)架構(gòu)和Transformer的Encoder是一樣的，關(guān)于Transformer的細(xì)節(jié)請(qǐng)看上一節(jié)。因此BERT的任務(wù)就是輸入一個(gè)序列，然后輸出一個(gè)序列，輸出序列和輸入序列的長(zhǎng)度是一樣的。通過Transformer中的自注意力機(jī)制，BERT具有考慮序列全局的能力。由于BERT一般用于自然語言處理，所以BERT的輸入一般使一排文字，然后輸出一組向量，向量的個(gè)數(shù)和文字的個(gè)數(shù)是一樣的。

3 BERT的訓(xùn)練

所謂自監(jiān)督學(xué)習(xí)，和監(jiān)督學(xué)習(xí)不同的地方就在于訓(xùn)練。BERT的訓(xùn)練方式有兩種：Masked Language Model和Next Sentence Prediction。

3.1 Masked Language Model

Masked Language Model的工作機(jī)制如下圖所示，類似于讓BERT做完形填空。在訓(xùn)練過程中，隨機(jī)蓋掉句子中的一些字，這些被蓋掉的字要么替換成一個(gè)特殊符號(hào)“MASK”，要么隨機(jī)替換成其他字。然后將替換后的句子當(dāng)成BERT的輸入，被蓋掉的字對(duì)應(yīng)的輸出向量通過一個(gè)Linear層和softmax操作之后輸出一個(gè)概率分布。前面講transformer的時(shí)候，講到了這個(gè)概率分布向量的長(zhǎng)度和字典的長(zhǎng)度是一樣的，每個(gè)字都有一個(gè)對(duì)應(yīng)的概率，概率最大的字就是最后的預(yù)測(cè)結(jié)果。在訓(xùn)練過程中，要使預(yù)測(cè)輸出的字和被蓋掉的字盡可能一致。這其實(shí)就是一個(gè)分類問題，類別的數(shù)目和字典的大小一樣，損失函數(shù)是交叉熵。通過這種簡(jiǎn)單的方式就實(shí)現(xiàn)了自監(jiān)督學(xué)習(xí)，它不需要我們?nèi)ト斯?biāo)注數(shù)據(jù)，它的標(biāo)簽來自于數(shù)據(jù)本身，這是非常巧妙的。

Masked Language Model

7.3.2 Next Sentence Prediction

Next Sentence Prediction的工作機(jī)制如下圖所示。在Next Sentence Prediction的訓(xùn)練任務(wù)中，BERT的輸入是兩個(gè)句子加上兩個(gè)特別的符號(hào)“CLS”，“SEP”。其中“CLS”是一個(gè)開始符號(hào)，“SEP”將兩個(gè)句子隔開。Next Sentence Prediction的任務(wù)是要預(yù)測(cè)這兩個(gè)句子是否是相接的，“CLS”輸出的向量通過Linear層后輸出“yes”和“no”，“yes”表示兩個(gè)句子是前后相接的，“no”則相反。訓(xùn)練數(shù)據(jù)的正例是正常的一篇文章中上下連貫的兩句話，負(fù)例是將正常相接的下一句話隨即替換成另外一句話。但是研究表明，這種訓(xùn)練任務(wù)對(duì)于BERT的訓(xùn)練用處不大。因此BERT的訓(xùn)練主要還是依賴于Masked Language Model。

Next Sentence Prediction

4 BERT的應(yīng)用

BERT在自然語言處理領(lǐng)域基本上都可以用上，其應(yīng)用機(jī)制如下圖所示，分為預(yù)訓(xùn)練（Pre-train） 和微調(diào)（Fine-tune） 兩個(gè)部分。
預(yù)訓(xùn)練（Pre-train） 就是指上面所說的Masked Language Model和Next Sentence Prediction兩個(gè)自監(jiān)督訓(xùn)練任務(wù)。這部分工作實(shí)際上由一些搞深度學(xué)習(xí)的大戶做好了，比如google、訊飛等，并不需要我們自己訓(xùn)練，我們只需要將人家訓(xùn)練好的BERT拿來用就行了。
微調(diào)（Fine-tune） 是指根據(jù)我們的下游任務(wù)（如機(jī)器翻譯、智能問答、文本標(biāo)注等），再利用下游任務(wù)的少量標(biāo)注數(shù)據(jù)對(duì)下游任務(wù)的參數(shù)進(jìn)行微調(diào)即可。

BERT的應(yīng)用機(jī)制

下面以“基于抽取的智能問答（Extraction-based Question Answering）”為例說明BERT的應(yīng)用機(jī)制。“基于抽取的智能問答”類似于閱讀理解，讓機(jī)器讀一段文字，然后提出幾個(gè)問題，機(jī)器從閱讀到的文字中抽取答案。對(duì)于該任務(wù)，模型的輸入就是文章和問題，輸出是兩個(gè)整數(shù)值“

s

”和“

e

”。“

s

”代表答案在文章中的起始位置，“

e

”代表答案在文章中的結(jié)束位置。例如下圖中第一個(gè)問題的答案是“gravity”，而“gravity”位于文章的第17個(gè)字符（不含標(biāo)點(diǎn)），因此模型的輸出“

s=17

”，“

e=17

”。同理，第三個(gè)問題的答案是“within a cloud”，而它們位于第77-79個(gè)字符，因此模型的輸出“

s=77

”，“

e=79

”。

基于抽取的智能問答

處理上述這個(gè)問題的做法如下圖所示，模型的輸入是問題和文章，問題和文章通過符號(hào)“SEP”隔開。然后隨機(jī)初始化兩個(gè)向量（圖中的橘黃色向量和藍(lán)色向量），向量的長(zhǎng)度和BERT輸出向量的長(zhǎng)度一樣，然后將這兩個(gè)向量分別去和文章輸出的向量做點(diǎn)積，然后通過Softmax輸出概率分布，概率最大的分別是答案的起始位置和結(jié)束位置。這個(gè)任務(wù)中訓(xùn)練的參數(shù)只有隨機(jī)初始化的兩個(gè)向量，BERT中的參數(shù)都不需要訓(xùn)練的。

基于抽取的智能問答的解法

可以看出利用BERT的預(yù)訓(xùn)練，做下游任務(wù)時(shí)就很簡(jiǎn)單了，訓(xùn)練的參數(shù)也非常少，而且實(shí)踐證明這樣做的效果是非常好的，超過了傳統(tǒng)的一些做法。這就是BERT的魅力所在。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明：文章內(nèi)容（如有圖片或視頻亦包括在內(nèi)）由作者上傳并發(fā)布，文章內(nèi)容僅代表作者本人觀點(diǎn)，簡(jiǎn)書系信息發(fā)布平臺(tái)，僅提供信息存儲(chǔ)服務(wù)。

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 228,156評(píng)論 6贊 531
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 98,401評(píng)論 3贊 415
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 176,069評(píng)論 0贊 373
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)。經(jīng)常有香客問我，道長(zhǎng)，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 62,873評(píng)論 1贊 309
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 71,635評(píng)論 6贊 408
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 55,128評(píng)論 1贊 323
城市分裂傳說
那天，我揣著相機(jī)與錄音，去河邊找鬼。笑死，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,203評(píng)論 3贊 441
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 42,365評(píng)論 0贊 288
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 48,881評(píng)論 1贊 334
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 40,733評(píng)論 3贊 354
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 42,935評(píng)論 1贊 369
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,475評(píng)論 5贊 358
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 44,172評(píng)論 3贊 347
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 34,582評(píng)論 0贊 26
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 35,821評(píng)論 1贊 282
情欲美人皮
我被黑心中介騙來泰國(guó)打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個(gè)月前我還...
沈念sama閱讀 51,595評(píng)論 3贊 390
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 47,908評(píng)論 2贊 372

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

BERT——自監(jiān)督學(xué)習(xí)的典范

BERT——自監(jiān)督學(xué)習(xí)的典范

1 自監(jiān)督學(xué)習(xí)的概念

2 BERT概述

3 BERT的訓(xùn)練

3.1 Masked Language Model

7.3.2 Next Sentence Prediction

4 BERT的應(yīng)用

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

BERT——自監(jiān)督學(xué)習(xí)的典范

1 自監(jiān)督學(xué)習(xí)的概念

2 BERT概述

3 BERT的訓(xùn)練

3.1 Masked Language Model

7.3.2 Next Sentence Prediction

4 BERT的應(yīng)用

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频