1 自監(jiān)督學(xué)習(xí)的概念
在機(jī)器學(xué)習(xí)中,最常見的是監(jiān)督學(xué)習(xí)(Supervised learning)。假設(shè)模型的輸入是,輸出是
,我們?nèi)绾问鼓P洼敵鑫覀兤谕?img class="math-inline" src="https://math.jianshu.com/math?formula=y" alt="y" mathimg="1">呢?我們得擁有已標(biāo)注的(label)的數(shù)據(jù),例如圖片識(shí)別,我們得有一堆的圖片,并且這些圖片被標(biāo)注了是什么。然后通過這些已標(biāo)注的數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練,使模型的輸出
盡可能地接近標(biāo)簽
,這是監(jiān)督學(xué)習(xí)。那么什么是自監(jiān)督學(xué)習(xí)呢?假設(shè)我們擁有一堆的數(shù)據(jù),但是沒有標(biāo)注,我們想辦法將這堆數(shù)據(jù)
分成兩個(gè)部分,一部分作為模型的輸入
,一部分作為模型的標(biāo)簽
。然后對(duì)模型進(jìn)行訓(xùn)練,使模型地輸出
盡可能地接近標(biāo)簽
。注意這里
不是人標(biāo)注的,而是數(shù)據(jù)里本來就有的。這說起來有點(diǎn)抽象,但是通過BERT這個(gè)例子就很容易明白了。
2 BERT概述
BERT的全稱是Bidirectional Encoder Representation from Transformers,即雙向Transformer的Encoder。因此BERT的網(wǎng)絡(luò)架構(gòu)和Transformer的Encoder是一樣的,關(guān)于Transformer的細(xì)節(jié)請(qǐng)看上一節(jié)。因此BERT的任務(wù)就是輸入一個(gè)序列,然后輸出一個(gè)序列,輸出序列和輸入序列的長(zhǎng)度是一樣的。通過Transformer中的自注意力機(jī)制,BERT具有考慮序列全局的能力。由于BERT一般用于自然語言處理,所以BERT的輸入一般使一排文字,然后輸出一組向量,向量的個(gè)數(shù)和文字的個(gè)數(shù)是一樣的。
3 BERT的訓(xùn)練
所謂自監(jiān)督學(xué)習(xí),和監(jiān)督學(xué)習(xí)不同的地方就在于訓(xùn)練。BERT的訓(xùn)練方式有兩種:Masked Language Model和Next Sentence Prediction。
3.1 Masked Language Model
Masked Language Model的工作機(jī)制如下圖所示,類似于讓BERT做完形填空。在訓(xùn)練過程中,隨機(jī)蓋掉句子中的一些字,這些被蓋掉的字要么替換成一個(gè)特殊符號(hào)“MASK”,要么隨機(jī)替換成其他字。然后將替換后的句子當(dāng)成BERT的輸入,被蓋掉的字對(duì)應(yīng)的輸出向量通過一個(gè)Linear層和softmax操作之后輸出一個(gè)概率分布。前面講transformer的時(shí)候,講到了這個(gè)概率分布向量的長(zhǎng)度和字典的長(zhǎng)度是一樣的,每個(gè)字都有一個(gè)對(duì)應(yīng)的概率,概率最大的字就是最后的預(yù)測(cè)結(jié)果。在訓(xùn)練過程中,要使預(yù)測(cè)輸出的字和被蓋掉的字盡可能一致。這其實(shí)就是一個(gè)分類問題,類別的數(shù)目和字典的大小一樣,損失函數(shù)是交叉熵。通過這種簡(jiǎn)單的方式就實(shí)現(xiàn)了自監(jiān)督學(xué)習(xí),它不需要我們?nèi)ト斯?biāo)注數(shù)據(jù),它的標(biāo)簽來自于數(shù)據(jù)本身,這是非常巧妙的。
7.3.2 Next Sentence Prediction
Next Sentence Prediction的工作機(jī)制如下圖所示。在Next Sentence Prediction的訓(xùn)練任務(wù)中,BERT的輸入是兩個(gè)句子加上兩個(gè)特別的符號(hào)“CLS”,“SEP”。其中“CLS”是一個(gè)開始符號(hào),“SEP”將兩個(gè)句子隔開。Next Sentence Prediction的任務(wù)是要預(yù)測(cè)這兩個(gè)句子是否是相接的,“CLS”輸出的向量通過Linear層后輸出“yes”和“no”,“yes”表示兩個(gè)句子是前后相接的,“no”則相反。訓(xùn)練數(shù)據(jù)的正例是正常的一篇文章中上下連貫的兩句話,負(fù)例是將正常相接的下一句話隨即替換成另外一句話。但是研究表明,這種訓(xùn)練任務(wù)對(duì)于BERT的訓(xùn)練用處不大。因此BERT的訓(xùn)練主要還是依賴于Masked Language Model。
4 BERT的應(yīng)用
BERT在自然語言處理領(lǐng)域基本上都可以用上,其應(yīng)用機(jī)制如下圖所示,分為預(yù)訓(xùn)練(Pre-train) 和微調(diào)(Fine-tune) 兩個(gè)部分。
預(yù)訓(xùn)練(Pre-train) 就是指上面所說的Masked Language Model和Next Sentence Prediction兩個(gè)自監(jiān)督訓(xùn)練任務(wù)。這部分工作實(shí)際上由一些搞深度學(xué)習(xí)的大戶做好了,比如google、訊飛等,并不需要我們自己訓(xùn)練,我們只需要將人家訓(xùn)練好的BERT拿來用就行了。
微調(diào)(Fine-tune) 是指根據(jù)我們的下游任務(wù)(如機(jī)器翻譯、智能問答、文本標(biāo)注等),再利用下游任務(wù)的少量標(biāo)注數(shù)據(jù)對(duì)下游任務(wù)的參數(shù)進(jìn)行微調(diào)即可。
下面以“基于抽取的智能問答(Extraction-based Question Answering)”為例說明BERT的應(yīng)用機(jī)制。“基于抽取的智能問答”類似于閱讀理解,讓機(jī)器讀一段文字,然后提出幾個(gè)問題,機(jī)器從閱讀到的文字中抽取答案。對(duì)于該任務(wù),模型的輸入就是文章和問題,輸出是兩個(gè)整數(shù)值“
處理上述這個(gè)問題的做法如下圖所示,模型的輸入是問題和文章,問題和文章通過符號(hào)“SEP”隔開。然后隨機(jī)初始化兩個(gè)向量(圖中的橘黃色向量和藍(lán)色向量),向量的長(zhǎng)度和BERT輸出向量的長(zhǎng)度一樣,然后將這兩個(gè)向量分別去和文章輸出的向量做點(diǎn)積,然后通過Softmax輸出概率分布,概率最大的分別是答案的起始位置和結(jié)束位置。這個(gè)任務(wù)中訓(xùn)練的參數(shù)只有隨機(jī)初始化的兩個(gè)向量,BERT中的參數(shù)都不需要訓(xùn)練的。
可以看出利用BERT的預(yù)訓(xùn)練,做下游任務(wù)時(shí)就很簡(jiǎn)單了,訓(xùn)練的參數(shù)也非常少,而且實(shí)踐證明這樣做的效果是非常好的,超過了傳統(tǒng)的一些做法。這就是BERT的魅力所在。