Attention

優(yōu)秀的博客:
【圖解什么是 Transformer(很全)】http://www.lxweimin.com/p/e7d8caa13b21
【自注意力機(jī)制Self-attention】https://www.cnblogs.com/robert-dlut/p/8638283.html
【BERT大火卻不懂Transformer】https://baijiahao.baidu.com/s?id=1622064575970777188&wfr=spider&for=pc
【寒小陽(yáng) 】https://me.csdn.net/yaoqiang2011

BERT
[https://www.cnblogs.com/rucwxb/p/10277217.html]
[https://baijiahao.baidu.com/s?id=1622064575970777188&wfr=spider&for=pc]
transformer
http://jalammar.github.io/illustrated-transformer/

Attention
SelfAttention
Multi-Attention
Transform
BERT

SelfAttention

1.Attention機(jī)制的核心在于對(duì)一個(gè)序列數(shù)據(jù)進(jìn)行聚焦,這個(gè)聚焦是通過(guò)一個(gè)概率分布來(lái)實(shí)現(xiàn)的。Attention vector實(shí)際上達(dá)到了讓B網(wǎng)絡(luò)聚焦于A網(wǎng)絡(luò)輸出的某一部分的作用。

2.根據(jù)Thinking單詞,對(duì)輸入句子的每個(gè)單詞進(jìn)行評(píng)分,這個(gè)分?jǐn)?shù)決定了對(duì)其他單詞放置多少關(guān)注度。例如 Thinking ,就用它的 q1 去乘以每個(gè)位置的 ki

3.目前在NLP研究中,key和value常常都是同一個(gè),也就是query=h1,key=value=s1,s2,s3,s4

Attention函數(shù)的本質(zhì)可以被描述為一個(gè)查詢(query)到一系列(鍵key-值value)對(duì)的映射。
在計(jì)算attention時(shí)主要分為三步,第一步是將query和每個(gè)key進(jìn)行相似度計(jì)算得到權(quán)重,常用的相似度函數(shù)有點(diǎn)積,拼接,感知機(jī)等;、
然后第二步一般是使用一個(gè)softmax函數(shù)對(duì)這些權(quán)重進(jìn)行歸一化;最后將權(quán)重和相應(yīng)的鍵值value進(jìn)行加權(quán)求和得到最后的attention。

google提出來(lái)的多頭attention的不同之處在于進(jìn)行了h次計(jì)算而不僅僅算一次,
好處是可以允許模型在不同的表示子空間里學(xué)習(xí)到相關(guān)的信息,后面還會(huì)根據(jù)attention可視化來(lái)驗(yàn)證。

token(符號(hào)):包括單詞和標(biāo)點(diǎn)

tokenization(分詞):我是中國(guó)人->['我', '是', '中國(guó)人']

corpus 語(yǔ)料庫(kù)

https://baijiahao.baidu.com/s?id=1622064575970777188&wfr=spider&for=pc

            attention有兩個(gè)RNN網(wǎng)絡(luò),一個(gè)用來(lái)將接收待翻譯語(yǔ)句,對(duì)其進(jìn)行編碼,最后輸出一個(gè)vector,這個(gè)網(wǎng)絡(luò)叫encoder。
            然后,該vector會(huì)作為輸入,傳給另一個(gè)RNN網(wǎng)絡(luò),該網(wǎng)絡(luò)用來(lái)根據(jù)vector產(chǎn)生目標(biāo)語(yǔ)言的翻譯語(yǔ)句,這個(gè)網(wǎng)絡(luò)叫做decoder
            s1,s2,s3,s4是第一句話的四個(gè)字各自的輸出,h1是第二句話的第一個(gè)字的輸出
            第一步:h1分別與s1,s2,s3,s4做點(diǎn)積,產(chǎn)生了四個(gè)數(shù),稱其為m1,m2,m3,m4(這些都是標(biāo)量,不是向量了!)
            第二步:m1,m2,m3,m4 傳到一個(gè)softmax層,產(chǎn)生一個(gè)概率分布a1,a2,a3, a4。
            第三步:將a1,a2,a3, a4 與s1,s2,s3,s4分別相乘,再相加,得到得到一個(gè)vector,稱其為Attention vector。
            第四步:Attention vector 將作為輸入傳到B網(wǎng)絡(luò)的第二個(gè)cell中,參與預(yù)測(cè)。
            以上就是Attention機(jī)制的基本思想了。我們看到,Attention vector用一個(gè)概率分布來(lái)融合了s1,s2,s3,s4的信息,
            而這個(gè)概率分布又是通過(guò)B網(wǎng)絡(luò)上一個(gè)cell的hidden state與s1,s2,s3,s4進(jìn)行點(diǎn)乘得到的。
            Attention vector實(shí)際上達(dá)到了讓B網(wǎng)絡(luò)聚焦于A網(wǎng)絡(luò)輸出的某一部分的作用。
            Attention機(jī)制的核心在于對(duì)一個(gè)序列數(shù)據(jù)進(jìn)行聚焦,這個(gè)聚焦是通過(guò)一個(gè)概率分布來(lái)實(shí)現(xiàn)的。這種機(jī)制其實(shí)有很強(qiáng)的普適性,可以用在各個(gè)方面。
            比如,根據(jù)圖片產(chǎn)生描述該圖片的文字,首先,圖片會(huì)經(jīng)過(guò)CNN進(jìn)行特征的提取,提取的數(shù)據(jù)會(huì)輸入到產(chǎn)生描述文字的RNN中,
            這里,我們可以引入Attention機(jī)制,讓我們?cè)诋a(chǎn)生下一個(gè)文字時(shí),聚焦于我們正在描述的圖片部位。

假如我們用一個(gè)RNN讀入了一個(gè)句子,產(chǎn)生了h1, h2,h3,h4四個(gè)hidden state。
為了得到該句子的摘要,對(duì)每一個(gè)h計(jì)算一個(gè)分?jǐn)?shù):f=vatanh(Wh)。
四個(gè)h共產(chǎn)生了4個(gè)分?jǐn)?shù),將這四個(gè)分?jǐn)?shù)送入一個(gè)softmax層,產(chǎn)生一個(gè)概率分布: a=softmax(va
tanh(Wh))
根據(jù)這個(gè)概率分布對(duì)四個(gè)h進(jìn)行加和,得到句子摘要的第一個(gè)vector: c=Ha
為了得到更多的vector,可以把上面圖中的小寫va換成一個(gè)矩陣,A=softmax(Va
tanh(Wh))
a也就變成了多個(gè)概率分布組成的矩陣,每個(gè)概率分布都可以用來(lái)與h進(jìn)行加和產(chǎn)生一個(gè)vector,產(chǎn)生了摘要的多個(gè)vector:C=AH

https://www.cnblogs.com/robert-dlut/p/8638283.html
第一步:將query和每個(gè)key進(jìn)行相似度計(jì)算得到權(quán)重,常用的相似度函數(shù)有點(diǎn)積,拼接,感知機(jī)等,也就是s1,s2,s3,s4與h1點(diǎn)積;
第二步:用一個(gè)softmax函數(shù)對(duì)這些權(quán)重進(jìn)行歸一化,得到概率分布a1,a2,a3,a4;
第三步:最后將權(quán)重和相應(yīng)的鍵值value進(jìn)行加權(quán)求和得到最后的attention,即將s1,s2,s3,s4與標(biāo)量a1,a2,a3,a4加權(quán)求和;
目前在NLP研究中,key和value常常都是同一個(gè),也就是query=h1,key=value=s1,s2,s3,s4

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,797評(píng)論 6 531
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 98,179評(píng)論 3 414
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人,你說(shuō)我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 175,628評(píng)論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我,道長(zhǎng),這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,642評(píng)論 1 309
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 71,444評(píng)論 6 405
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 54,948評(píng)論 1 321
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,040評(píng)論 3 440
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 42,185評(píng)論 0 287
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 48,717評(píng)論 1 333
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 40,602評(píng)論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 42,794評(píng)論 1 369
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,316評(píng)論 5 358
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 44,045評(píng)論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,418評(píng)論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,671評(píng)論 1 281
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 51,414評(píng)論 3 390
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 47,750評(píng)論 2 370

推薦閱讀更多精彩內(nèi)容

  • 系列一介紹了Seq2seq和 Attention model。這篇文章將重點(diǎn)擺在Google於2017年發(fā)表論文“...
    高斯純牛奶閱讀 4,781評(píng)論 7 23
  • Part I:背景知識(shí) 按照慣例,本節(jié)要介紹一下Attention是啥,打字也累請(qǐng)直接看這張圖: 這張圖很是出名了...
    top_小醬油閱讀 1,993評(píng)論 0 7
  • 1.attention 與人類學(xué)習(xí)相同,機(jī)器學(xué)習(xí)過(guò)程中我們也希望能有側(cè)重點(diǎn),核心目標(biāo)也是從眾多信息中選擇出對(duì)當(dāng)前任...
    s蘇薳閱讀 31,756評(píng)論 0 12
  • 一、背景 注意力模型(Attention Model)被廣泛使用在自然語(yǔ)言處理、圖像識(shí)別及語(yǔ)音識(shí)別等各種不同類型...
    河海中最菜閱讀 2,360評(píng)論 1 2
  • 你想買潮牌,但是你又不舍得那錢。為了掩飾你買復(fù)刻,甚至還不是高仿的復(fù)刻,是低配的復(fù)刻,你為了省錢,卻又要面子,你和...
    1a1b2ba6b454閱讀 140評(píng)論 0 0