BERT - 論文解讀

BERT:【 Pre-training of Deep Bidirectional Transformers for
Language Understanding】

image.png

論文地址:https://arxiv.org/pdf/1810.04805.pdf

論文標(biāo)題:

  • Bert - Bidirectional Encoder Representations from Transformers
  • 一種從Transformers模型得來(lái)的雙向編碼表征模型。

GitHub地址:https://github.com/google-research/bert

機(jī)構(gòu):谷歌

0、摘要:

  • 我們介紹了一種新的語(yǔ)言表示模型,稱為BERT,它來(lái)自Transformer的雙向編碼表示。與最近的語(yǔ)言表征模型(Peters等人,2018a;Radford等人,2018)不同,BERT的設(shè)計(jì)目的是通過對(duì)標(biāo)記的文本上進(jìn)行預(yù)訓(xùn)練,調(diào)節(jié)各個(gè)層的參數(shù),學(xué)習(xí)上下文表示。因此只需要增加一個(gè)輸出層進(jìn)行微調(diào),就能在多個(gè)任務(wù)上達(dá)到 SOTA 水平。

  • 預(yù)訓(xùn)練的BERT模型可以通過fine-tuned 在廣泛的任務(wù)中創(chuàng)造新的最佳記錄,比如問答任務(wù),語(yǔ)言推理任務(wù)等,而不需要對(duì)BERT本身架構(gòu)做實(shí)質(zhì)性的修改。

1、介紹:

將預(yù)訓(xùn)練語(yǔ)言模型應(yīng)用在下游任務(wù)中,一般有兩種策略:

  • (1)feature-based: 例子是 ELMo 。
  • (2)fine-tuning: 例子是 GPT。

作者認(rèn)為影響當(dāng)前預(yù)訓(xùn)練語(yǔ)言模型的瓶頸是——“模型是單向的”。如 GPT 選擇從左到右的架構(gòu),這使得每個(gè) token 只能注意到它前面的 token,這對(duì) sentence 級(jí)的任務(wù)影響還是次要的,但對(duì)于 token 級(jí)的任務(wù)來(lái)說影響就很巨大。例如問答任務(wù),從兩個(gè)方向結(jié)合上下文是至關(guān)重要的。

BERT 通過使用受完形填空任務(wù)啟發(fā)的 Mask Language Model (MLM)緩解了先前模型的單向性約束問題。MLM 隨機(jī) mask 掉一些輸入文本中的 token,然后根據(jù)剩下的上下文預(yù)測(cè) masked 的 token。除了 Mask Language Model,作者還提出了 Next Sequence Predict 任務(wù),來(lái)聯(lián)合訓(xùn)練文本對(duì)表示。

論文中BERT的改進(jìn)如下:

  • (1)證明了雙向預(yù)訓(xùn)練對(duì)于語(yǔ)言表示模型的重要性。
  • (2)證明了預(yù)訓(xùn)練表示減少了為特定任務(wù)精心設(shè)計(jì)網(wǎng)絡(luò)架構(gòu)的必要性。BERT是第一個(gè)基于微調(diào)的表示模型,實(shí)現(xiàn)了在一套進(jìn)行語(yǔ)句級(jí)和標(biāo)記級(jí)任務(wù)中的最出色的表現(xiàn),優(yōu)于許多特定任務(wù)的體系結(jié)構(gòu)。
  • (3)BERT 在11個(gè) NLP 任務(wù)上達(dá)到了 SOTA 水平。代碼位置:https://github.com/google-research/bert

2 相關(guān)工作:

預(yù)訓(xùn)練前的一般語(yǔ)言表征有著悠久歷史,本節(jié)我們簡(jiǎn)要回顧一下最廣泛使用的方法。

2.1 基于特征的無(wú)監(jiān)督方法
幾十年來(lái),學(xué)習(xí)廣泛適用的詞匯表征一直是一個(gè)活躍的研究領(lǐng)域,包括非神經(jīng)系統(tǒng)、神經(jīng)系統(tǒng)方法。預(yù)訓(xùn)練的詞嵌入是現(xiàn)代NLP系統(tǒng)的一個(gè)組成部分,與從頭學(xué)習(xí)的嵌入相比,它提供了顯著的改進(jìn)(Turian等人,2010)。為了預(yù)先訓(xùn)練單詞嵌入向量,已經(jīng)使用了從左到右的語(yǔ)言建模目標(biāo)(Mnih和Hinton,2009),以及在左右上下文中區(qū)分正確單詞和錯(cuò)誤單詞的目標(biāo)(Mikolov等人,2013)。

這些方法已被推廣到更粗糙的粒度,例如句子嵌入(Kiros等人,2015;Logeswaran和Lee,2018)或段落嵌入(Le和Mikolov,2014)。為了訓(xùn)練句子表征,之前的工作已經(jīng)使用了目標(biāo)對(duì)候選下一個(gè)句子進(jìn)行排序(Jernite等人,2017;Logeswaran和Lee,2018),根據(jù)前一個(gè)句子的表征從左到右生成下一個(gè)句子單詞(Kiros等人,2015),或去噪自動(dòng)編碼器衍生的目標(biāo)(Hill等人,2016)。

ELMo及其前身(Peters等人,20172018a)從不同的維度概括了傳統(tǒng)的單詞嵌入研究。它們通過從左到右和從右到左的語(yǔ)言模型中提取上下文敏感的特征。每個(gè)標(biāo)記的上下文表示是從左到右和從右到左表示的串聯(lián)。在將上下文單詞嵌入與現(xiàn)有任務(wù)特定架構(gòu)相結(jié)合時(shí),ELMo推進(jìn)了幾個(gè)主要NLP基準(zhǔn)(Peters等人,2018a)的最新技術(shù),包括問答(Rajpurkar等人,2016年)、情感分析(Socher等人,2013年)和命名實(shí)體識(shí)別(Tjong Kim-Sang和De Meulder,2003年)。Melamud等人(2016年)提出通過一項(xiàng)任務(wù)來(lái)學(xué)習(xí)語(yǔ)境表征,即使用LSTM從左右語(yǔ)境中預(yù)測(cè)單個(gè)單詞。與ELMo類似,他們的模型是基于特征的,而不是深度雙向的。Fedus等人(2018)表明,完形填空任務(wù)可以用來(lái)提高文本生成模型的穩(wěn)健性。

2.2 無(wú)監(jiān)督微調(diào)方法:

基于特征feature-based的方法一樣,第一種方法只在未標(biāo)記文本中預(yù)先訓(xùn)練單詞嵌入?yún)?shù)的情況下才朝這個(gè)方向工作。最近,產(chǎn)生上下文標(biāo)記表示的句子或文檔編碼器已經(jīng)從未標(biāo)記的文本和文本中預(yù)訓(xùn)練出來(lái)針對(duì)受監(jiān)督的下游任務(wù)進(jìn)行了微調(diào)fine-tuned
這些方法的優(yōu)點(diǎn)是,很少有參數(shù)需要從頭學(xué)習(xí)。至少部分由于這一優(yōu)勢(shì),OpenAI GPT在GLUE基準(zhǔn)測(cè)試的許多句子級(jí)任務(wù)上取得了之前的最新成果。從左到右的語(yǔ)言建模和自動(dòng)編碼器目標(biāo)已用于此類模型的預(yù)訓(xùn)練。

  • BERT 模型有兩個(gè)步驟:預(yù)訓(xùn)練、微調(diào)
    預(yù)訓(xùn)練時(shí),模型在不同的預(yù)訓(xùn)練任務(wù)中基于未標(biāo)記數(shù)據(jù)進(jìn)行訓(xùn)練;
    微調(diào)時(shí),先使用預(yù)訓(xùn)練模型的參數(shù)初始化 BERT 模型,再在特定任務(wù)的標(biāo)注數(shù)據(jù)上對(duì)參數(shù)進(jìn)行微調(diào)。以問答為例,如下圖所示:
image.png

注解:BERT的整體預(yù)訓(xùn)練和微調(diào)程序。除了輸出層之外,在預(yù)訓(xùn)練和微調(diào)中使用相同的體系結(jié)構(gòu)。相同的預(yù)訓(xùn)練模型參數(shù)用于初始化不同下游任務(wù)的模型。在微調(diào)過程中,所有參數(shù)都會(huì)微調(diào)。

  • [CLS] 是每個(gè)輸入示例開頭的特殊標(biāo)記;
  • [SEP] 是一個(gè)特殊的標(biāo)記用于區(qū)分 question/answer。

2.3 基于監(jiān)督數(shù)據(jù)的遷移學(xué)習(xí):
也有研究表明,在大數(shù)據(jù)集的監(jiān)督任務(wù)中,如自然語(yǔ)言推理和機(jī)器翻譯可以有效地進(jìn)行轉(zhuǎn)換。計(jì)算機(jī)視覺研究也證明了從大型預(yù)訓(xùn)練模型中進(jìn)行遷移學(xué)習(xí)的重要性,其中一個(gè)有效的方法是對(duì)使用ImageNet預(yù)訓(xùn)練模型進(jìn)行微調(diào)。

3 BERT:

本節(jié)將介紹BERT及其詳細(xì)實(shí)現(xiàn)。在我們的框架中有兩個(gè)步驟:預(yù)訓(xùn)練和微調(diào)。

  • 預(yù)訓(xùn)練期間,模型在不同的預(yù)訓(xùn)練任務(wù)中基于未標(biāo)記的數(shù)據(jù)進(jìn)行訓(xùn)練。
  • 對(duì)于微調(diào),首先,使用預(yù)先訓(xùn)練的參數(shù)初始化BERT模型,然后,使用來(lái)自下游任務(wù)的標(biāo)記數(shù)據(jù)微調(diào)所有參數(shù)。每個(gè)下游任務(wù)都有單獨(dú)的微調(diào)模型,即使它們是用相同的預(yù)訓(xùn)練參數(shù)初始化的。這個(gè)圖1中的問答示例將作為本節(jié)的運(yùn)行示例。

BERT的一個(gè)顯著特點(diǎn)是其跨不同任務(wù)的統(tǒng)一體系結(jié)構(gòu)。預(yù)訓(xùn)練的體系結(jié)構(gòu)和最終的下游體系結(jié)構(gòu)之間的差異最小。

  • 模型架構(gòu):

BERT 的模型架構(gòu)是一種多層的雙向 transformer encoder,BERT 在實(shí)現(xiàn)上與 transformer encoder 幾乎完全相同。

定義:transformer block 的個(gè)數(shù)為 L ; hidden 大小為 H; self-attentions head 的個(gè)數(shù)為 A. 作者主要展示了兩種規(guī)模的 BERT 模型:

在這項(xiàng)工作中,我們將層數(shù)(即Transformer blocks)表示為L(zhǎng),隱藏大小表示為H,自我注意頭的數(shù)量表示為A。我們主要報(bào)告兩種型號(hào)的結(jié)果:

  • BERT - base : L=12, H=768, A=12, Total Parameters=110M。
  • BERT - large: L=24, H=1024,A=16, Total Parameters=340M。
image.png

為了進(jìn)行比較,選擇BERT-base與OpenAI GPT具有相同的模型大小。然而,關(guān)鍵的是,BERT Transformer使用雙向自注意力機(jī)制self-attention,而GPT Transformer使用受限自注意力機(jī)制constrained self-attention,其中每個(gè)標(biāo)記只能關(guān)注其左側(cè)的上下文。

輸入/輸出表示:

為了使 BERT 能處理大量不同的下游任務(wù),作者將模型的輸入設(shè)計(jì)成可以輸入單個(gè)句子或句子對(duì),這兩種輸入被建模成同一個(gè) token 序列。作者使用了有 30000 個(gè) token 的 vocabulary 詞嵌入。

  • 輸入序列:第一個(gè) token 都是一個(gè)特殊標(biāo)記 [CLS],該標(biāo)記的最終隱藏狀態(tài)用來(lái)聚合句子的表征,從而實(shí)現(xiàn)分類任務(wù)。對(duì)于 sentence 對(duì),作者使用特殊標(biāo)記 [SEP] 來(lái)區(qū)分不同的句子。

  • 輸出序列:用 E 來(lái)表示輸入的 embedding,[CLS] 的最終隱藏狀態(tài)為 C∈R H ,輸入序列的第 i 個(gè) token 的隱藏向量為 T i ∈ R H T 。對(duì)于 Ti ,都是通過 token embedding、segment embedding、position embedding 加和構(gòu)造出來(lái)的。如下圖所示:

image.png

3.1 Pre-training BERT:
我們不使用傳統(tǒng)的從左到右或從右到左的語(yǔ)言模型來(lái)預(yù)訓(xùn)練BERT。相反,我們使用本節(jié)所述的兩個(gè)無(wú)監(jiān)督任務(wù)對(duì)BERT進(jìn)行預(yù)訓(xùn)練。這一步如圖1的左半部分所示。

Task #1: Masked LM
標(biāo)準(zhǔn)的語(yǔ)言模型只能實(shí)現(xiàn)從左到右或從右到左的訓(xùn)練,不能實(shí)現(xiàn)真正的雙向訓(xùn)練,這是因?yàn)殡p向的條件是每個(gè)單詞能直接“看到自己”,并且模型可以在多層上下文中輕松的預(yù)測(cè)出目標(biāo)詞。

為了能夠?qū)崿F(xiàn)雙向的深度預(yù)訓(xùn)練,作者選擇隨機(jī) mask 掉一些比例的 token,然后預(yù)測(cè)這些被 masked 的 token,在這種設(shè)置下,被 masked 的 token 的隱向量表示被輸出到詞匯表的 softmax 上,這就與標(biāo)準(zhǔn)語(yǔ)言模型設(shè)置相同。作者將這個(gè)過程稱為“Masked LM”,也被稱為“完形填空”。

○ Masked LM 預(yù)訓(xùn)練任務(wù)的缺點(diǎn)
在于由于 [MASK] 標(biāo)記不會(huì)出現(xiàn)在微調(diào)階段,這就造成了預(yù)訓(xùn)練和微調(diào)階段的不一致。為了解決該問題,作者提出了一種折中的方案

○ BERT 的 mask策略:

  • 隨機(jī)選擇 15% 的 token;
  • 這些15%要被 masked 的 token 并不會(huì)真的全替換成 [MASK],而是從這些 token 中:
    (1)隨機(jī)選擇 80% 替換成 [MASK] ;
    (2)隨機(jī)選擇 10% 替換成隨機(jī) token;
    (3)隨機(jī)選擇 10% 不改變?cè)?token。
    然后 T i 使用交叉熵?fù)p失來(lái)預(yù)測(cè)原始的 token。

Task #2: Next Sentence Prediction (NSP)
很多下游任務(wù)都是基于對(duì)兩句話之間的關(guān)系的理解,語(yǔ)言模型不能直接捕獲這種信息。為了訓(xùn)練模型理解這種句間關(guān)系,作者設(shè)計(jì)了 next sentence prediction 的二分類任務(wù)。具體來(lái)說,就是選擇兩個(gè)句子作為一個(gè)訓(xùn)練樣本,有 50% 的概率是下一句關(guān)系,有 50% 的概率是隨機(jī)選擇的句子對(duì),預(yù)測(cè)將 [CLS] 的最終隱狀態(tài) C 輸入 sigmoid 實(shí)現(xiàn)

○ Pre-training data
作者選用了BooksCorpus (800M words) 和 English Wikipedia (2,500M words) 作為預(yù)訓(xùn)練的語(yǔ)料庫(kù),作者只選取了 Wikipedia 中的文本段落,忽略了表格、標(biāo)題等。為了獲取長(zhǎng)的連續(xù)文本序列,作者選用了 BIllion Word Benchmark 這樣的文檔級(jí)語(yǔ)料庫(kù),而非打亂的句子級(jí)語(yǔ)料庫(kù)。

3.2 Fine-tuning BERT
因?yàn)?transformer 中的 self-attention 機(jī)制適用于很多下游任務(wù),所以可以直接對(duì)模型進(jìn)行微調(diào)。對(duì)于涉及文本對(duì)的任務(wù),一般的做法是獨(dú)立 encode 文本對(duì),然后再應(yīng)用雙向的 cross attention 進(jìn)行交互。Bert 使用 self-attention 機(jī)制統(tǒng)一了這兩個(gè)階段,該機(jī)制直接能夠?qū)崿F(xiàn)兩個(gè)串聯(lián)句子的交叉編碼。

對(duì)于不同的任務(wù),只需要簡(jiǎn)單地將特定于該任務(wù)的輸入輸出插入到 Bert 中,然后進(jìn)行 end2end 的fine-tuning。

  • 對(duì)于輸入,預(yù)訓(xùn)練中的 sentence A 和 sentence B 能夠替換成:
    (1)同義關(guān)系中的句子對(duì);
    (2)蘊(yùn)含關(guān)系中的“假設(shè)-前提對(duì)”;
    (3)問答中的“段落-問題對(duì)”;
    (4)文本分類或序列標(biāo)注中的“文本-null”。

  • 對(duì)于輸出,對(duì)于 token-level 的任務(wù),如序列標(biāo)注、問答,將 Bert 輸出的 token 編碼輸入到輸出層;對(duì)于 sentence-level 的任務(wù),如句子的蘊(yùn)含關(guān)系、情感分析等,將 [CLS] 作為輸入序列的聚合編碼,輸入到輸出層

與預(yù)訓(xùn)練相比,微調(diào)相對(duì)便宜。從完全相同的預(yù)訓(xùn)練模型開始,本文中的所有結(jié)果最多可以在單個(gè)云TPU上復(fù)制1小時(shí),或在GPU上復(fù)制幾個(gè)小時(shí)。

4 實(shí)驗(yàn):

在本節(jié)中,我們將介紹11個(gè)NLP任務(wù)的BERT微調(diào)結(jié)果。
4.1 GLUE:
GLUE (General Language Understanding Evaluation) 是多個(gè) NLP 任務(wù)的集合。作者設(shè)置 batch size 為 32;訓(xùn)練 3 個(gè) epochs;在驗(yàn)證集上從(5e-5, 4e-5, 3e-5, 2e-5)中選擇最優(yōu)的學(xué)習(xí)率。結(jié)果如下:

image.png

結(jié)果見表1。BERT-base和BERT-large在所有任務(wù)上都比所有系統(tǒng)表現(xiàn)出色,與現(xiàn)有技術(shù)相比,平均準(zhǔn)確率分別提高了4.5%和7.0%。請(qǐng)注意,除了注意掩蔽,BERT-base和OpenAI GPT在模型架構(gòu)方面幾乎相同。

對(duì)于最大和最廣泛報(bào)道的GLUE任務(wù)MNLI,BERT獲得了4.6%的絕對(duì)準(zhǔn)確率提高。在官方的GLUE排行榜10中,BERT-lagle獲得80.5分,而OpenAI GPT在撰寫本文之日獲得72.8分。我們發(fā)現(xiàn)BERT-large在所有任務(wù)中都顯著優(yōu)于BERT-base,尤其是那些訓(xùn)練數(shù)據(jù)很少的任務(wù)。

4.2 SQuAD v1.1:
斯坦福問答數(shù)據(jù)集(SQuAD v1.1)收集了10萬(wàn)對(duì)眾包問答對(duì)。給出一個(gè)問題和一段維基百科中包含答案的文章,任務(wù)是預(yù)測(cè)文章中的答案文本。

如圖1所示,在問答任務(wù)中,我們將輸入的問題和段落表示為單個(gè)壓縮序列,問題使用A嵌入,段落使用B嵌入。在微調(diào)過程,我們只引入一個(gè)起始向量S和一個(gè)端向量E。單詞i作為答案范圍開始的概率計(jì)算為Ti和S之間的點(diǎn)積,然后是段落中所有單詞的softmax:


image.png

答案范圍結(jié)束時(shí)使用類似公式。候選人從位置 i 到位置 j 的得分定義為:S·Ti + E·Tj ,最大得分跨度為 j≥ i 被用作預(yù)測(cè)。訓(xùn)練目標(biāo)是正確起始位置和結(jié)束位置的對(duì)數(shù)概率之和。我們微調(diào)了3個(gè)階段,學(xué)習(xí)率為5e-5,批量大小為32。

表2顯示了頂級(jí)排行榜條目以及頂級(jí)發(fā)布系統(tǒng)的結(jié)果。SQuAD排行榜的前幾名沒有最新的公共系統(tǒng)描述,并且允許在訓(xùn)練系統(tǒng)時(shí)使用任何公共數(shù)據(jù)。因此,在我們的系統(tǒng)中使用適度的數(shù)據(jù)擴(kuò)充,首先在TriviaQA上進(jìn)行微調(diào),然后再對(duì)團(tuán)隊(duì)進(jìn)行微調(diào)。

image.png

我們表現(xiàn)最好的系統(tǒng)在ensembling方面的表現(xiàn)優(yōu)于排名第一的系統(tǒng),在ensembling方面的表現(xiàn)優(yōu)于排名第一的系統(tǒng)+1.5 F1,在單一系統(tǒng)方面的表現(xiàn)優(yōu)于排名第一的系統(tǒng)+1.3 F1得分。事實(shí)上,我們的單BERT模型在F1成績(jī)方面優(yōu)于頂級(jí)合奏系統(tǒng)。如果沒有TriviaQA微調(diào)數(shù)據(jù),我們只會(huì)損失0.1-0.4 F1,仍然遠(yuǎn)遠(yuǎn)超過所有現(xiàn)有系統(tǒng)。

其他實(shí)驗(yàn):略

5 消融研究:

在本節(jié)中,我們對(duì)BERT的許多方面進(jìn)行了消融實(shí)驗(yàn),以便更好地了解它們的相對(duì)重要性。其他消融研究見附錄C。

5.1 預(yù)訓(xùn)練任務(wù)的效果

○ 進(jìn)行了如下消融測(cè)試:

  • “No NSP” :不進(jìn)行 nsp 任務(wù),只進(jìn)行 Masked LM task;
  • “LTR & No NSP” :不進(jìn)行 nsp 任務(wù),且使用標(biāo)準(zhǔn)語(yǔ)言模型采用的 Left-to-Right 訓(xùn)練方法。

○ 結(jié)果如下:

image.png
  • 如果采用像 ELMo 那樣訓(xùn)練 LTR 和 RTL 模型,再對(duì)結(jié)果進(jìn)行拼接,有以下缺點(diǎn)

  • (1)相對(duì)于單個(gè)雙向模型來(lái)說,表征長(zhǎng)度翻倍,代價(jià)相對(duì)提高.

  • (2)這種拼接不直觀,因?yàn)閷?duì)于 QA 任務(wù)來(lái)說,RTL 任務(wù)做的事實(shí)際上是 “根據(jù)答案推導(dǎo)問題” 這是不靠譜的。

  • (3)與深度雙向模型相比,這種在上下文上的雙向交互的能力較弱,因?yàn)殡p向模型在每層都能進(jìn)行雙向的上下文交互。

5.2 模型大小的影響

○ 結(jié)果如下:

image.png

作者證明了:如果模型經(jīng)過充分的預(yù)訓(xùn)練,即使模型尺寸擴(kuò)展到很大,也能極大改進(jìn)訓(xùn)練數(shù)據(jù)規(guī)模較小的下游任務(wù)。

5.3 將 Bert 應(yīng)用于 Feature-based 的方法

○ feature-based 的方法是從預(yù)訓(xùn)練模型中提取固定的特征,不對(duì)具體任務(wù)進(jìn)行微調(diào)。
○ 這樣的方法也有一定的優(yōu)點(diǎn)

  • (1) 并非所有任務(wù)都能用 transformer 架構(gòu)簡(jiǎn)單表示,因此這些任務(wù)都需要添加特定的架構(gòu);
  • (2) feature-based 的方法還有一定的計(jì)算成本優(yōu)勢(shì)。

作者進(jìn)行了如下實(shí)驗(yàn):在 CoNLL-2003 數(shù)據(jù)集上完成 NER 任務(wù),不使用 CRF 輸出,而是從一到多個(gè)層中提取出激活值,輸入到 2 層 768 維的 BiLSTM 中,再直接分類。結(jié)果如下:

image.png

結(jié)果說明:無(wú)論是否進(jìn)行微調(diào),Bert 模型都是有效的。

6 總結(jié):

個(gè)人認(rèn)為 Bert 的意義在于:

  • 成功實(shí)踐了 pre-training + fine-tuning 的深度學(xué)習(xí)范式;
  • 發(fā)掘了在 NLP 中“深度雙向架構(gòu)”在預(yù)訓(xùn)練任務(wù)中的重要意義。

由于語(yǔ)言模型的遷移學(xué)習(xí),最近的經(jīng)驗(yàn)改進(jìn)表明,豐富的、無(wú)監(jiān)督的預(yù)訓(xùn)練是許多語(yǔ)言理解系統(tǒng)的一個(gè)組成部分。特別是,這些結(jié)果使得即使是低資源任務(wù)也能從深層單向體系結(jié)構(gòu)中受益。我們的主要貢獻(xiàn)是將這些發(fā)現(xiàn)進(jìn)一步推廣到深層雙向體系結(jié)構(gòu)中,使相同的預(yù)訓(xùn)練模型能夠成功地處理廣泛的NLP任務(wù)。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,401評(píng)論 6 531
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 98,011評(píng)論 3 413
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 175,263評(píng)論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我,道長(zhǎng),這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,543評(píng)論 1 307
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 71,323評(píng)論 6 404
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 54,874評(píng)論 1 321
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 42,968評(píng)論 3 439
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 42,095評(píng)論 0 286
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 48,605評(píng)論 1 331
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 40,551評(píng)論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 42,720評(píng)論 1 369
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,242評(píng)論 5 355
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 43,961評(píng)論 3 345
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,358評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,612評(píng)論 1 280
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 51,330評(píng)論 3 390
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 47,690評(píng)論 2 370

推薦閱讀更多精彩內(nèi)容