詞向量(word embeddings)與相關應用

自然語言處理中文本數值化表方法

詞向量是什么，自然語言理解的問題要轉化為機器學習的問題，第一步肯定是要找一種方法把這些符號數學化，NLP中大多是將文本表示為空間向量后再進行處理。

離散表示： one-hot表示

舉例：

語料庫：
John likes to watch movies. Mary likes too. John also likes to watch football games.
由語料庫得到字典：
{“John”:1,"likes":2,"to":3,"watch":4,"movies":5,"also":6,"football":7,"game"：8，“Mary”:9,"too":10}
one-hot 表示：John: [1,0,0,0,0,0,0,0,0,0]
Mary: [0,0,0,0,0,0,0,0,1,0]
also: [0,0,0,0,0,1,0,0,0,0]
詞典中包含10個單詞，每個單詞有唯一索引，值的表示在詞典中的順序和在句子中的順序沒有關聯。
講解：由上可知one-hot表示當前詞的索引位置為1，其他值為0，表示非常稀疏。

離散表示：Bag of Words (詞袋表示)

根據one-hot的思想，文檔的空間向量表示可以之間將各詞的詞向量表示相加。這樣
John likes to watch movies. Mary likes too. 就可以表示為 [1,2,1,1,1,0,0,0,1,1]
John also likes to watch football games. 可表示為[1,1,1,1,0,1,1,1,0,0]
由one-hot表示出的模型為基礎，也可以根據詞的權重來進行詞向量的表示。
- TF-IDF(Term Frequency-Inverse Document Frequency)
  tf = n, n表示某詞在當前文檔中出現的次數。IDF權重是log(1 + N/Nt), N指所有的文檔數，Nt指含有詞t的文檔數。
  John likes to watch movies. Mary likes too. 就可以表示為 [0.693,1.386,0.693,0.693,1.099,0,0,0,0.693,0.693]
  雖然FT-IDF能夠體現出各個詞在文檔中的重要程度（一般用于關鍵詞提取，主題分類），但是基于one-hot的模型的基礎，它是沒有考慮文檔中詞之間的順序問題，句子中詞之間沒有聯系，會丟失很重要的信息。
  （用宜以上方法，I will help you 和 You will help me,兩個句子的空間向量表示是相同的）

離散表示： Bi-gram和N-gram （考慮詞的順序）

語言模型：通常在NLP中，人們基于一定的語料庫，可以利用語言模型（N-Gram）來預計或者評估一個句子是否合理。（N-gram詳解）
N-gram是基于這樣一種假設，第n個詞的出現只與前面N-1個詞相關，而與其它任何詞都不相關. Bi-gram就是假設第n個詞只與它前面的一個詞有關。
和one-hot表示方法相似，這里為Bi-gram建立索引：
{"John likes":1
"likes to":2,
"to watch":3,
"watch movies":4,
"Mary likes":5,
"likes too":6,
"John also":7,
"also likes":8
"watch football":9,
"football games":10}
John likes to watch movies. Mary likes too. [1,1,1,1,1,1,0,0,0,0]
John also likes to watch football games. [0,1,1,0,0,0,1,1,1,1]
缺點: 隨著字典size的增大,參數數量會非常大.
以后文本表示方法屬于離散表示,即各個詞之間是相互獨立的,并沒有表現出關聯關系.另外,利用以上方法我們也無法衡量向量之間的關系.比如
由"酒店","賓館"的向量:
酒店 [0,1,0,0,0,0,0,0,0,0]
賓館 [0,0,0,0,1,0,0,0,0,0]
按常識來講,我們是認為"酒店"和"賓館"是有相似含義的,但是由于向量表示的稀疏性我們很難捕捉到兩者之間的關系.
而且詞表的長度會隨著語料庫的增長而膨脹,n-gram序列隨著語料庫膨脹更快(因為是組合詞的詞典).

分布式表示(Distributed representation)

分布式表示思想解析

如上圖所示,如果我們利用離散文本表示方法對本文進行表示時,"紅色的大型卡車","黃色的中型SUV","紫色的小型電動車"無法表達任何相似的信息. 那么考慮用顏色,型號,車型分布式對相應文本進行表示. 那么對于"紅色的大型卡車"和"紅色的小型電動車"的表示就會有相同部分表示,基于此我們就可以來進行文本信息處理.

共現矩陣(Cocurrence matrix)

word-word共現矩陣可以挖掘語法和語義信息.對于以下含有三句話的語料庫我們進行word-word共現矩陣表示.
I like deep learning.
I like NLP.
I enjoy flying.
為了理解,這里window length設為1 (一般為5~10)
使用對稱的窗函數(左右window length都為1)

word-word共現矩陣

正如上圖,對于"I", 左右窗口中出現"I"的次數為0,"like"出現為2次,"enjoy"出現次數為1,"deep","learning","NLP","flying","."都為0. 以此類推,得到一個對稱矩陣.這樣,也同時得到了每個word的分布式表示,如'I' [0,2,1,0,0,0,0,0]
但由共現矩陣得到的詞向量存在一下問題:

向量維數隨著字典大小線性增長;
存儲整個字典的空間消耗會非常大;
一些模型如文本分類模型會面臨稀疏性問題;
模型會欠穩定.

NNML(Neural Network Language Model)

詞向量通過神經網絡語言模型得到,一定程度上解決數據稀疏性.

NNML

如上圖所示,神經網絡模型包括投影層,隱藏層和輸出層.假如有語料"我愛北京天安門",經過分詞得到"我" "愛" "北京" "天安門".模型的訓練過程如下:

將"我" "愛" "北京" "天安門"分別用one-hot embedding 的形式表示出來(各向量維數和字典大小相同).
"我" [1,0,0,0]
"愛" [0,1,0,0]
"北京" [0,0,1,0]
"天安門" [0,0,0,1]
"我" "愛" "北京" 三個空間向量作為輸入, 通過語言模型"我愛北京"之后的詞,每個輸入是1x4的矩陣Ai,經過投影層和200x4的矩陣Ci相乘,即Ci*Ai',投影出200x1的向量(這也是此層叫投影層的原因) 然后對這三個向量進行拼接(concate),得到一個800維的向量;
隱藏層將一個800的向量經過激活函數tanh處理;
輸出層輸出的是維數是4的概率向量,每一維表示字典中每個詞是要預測的那個詞的概率;
輸出層經過softmax分類函數,得到一個概率向量和已知正確的向量即"天安門" [0,0,0,1]求KL(Kullback Leibler)距離,然后利用BP(Backpropagation algorithm 反向傳播算法)和SGD(Stochastic Gradient Descent 隨機梯度下降)對模型進行調優.
根據訓練好的模型就可以得到文本內容的詞向量.
備注: 投影矩陣C和w,b 相似,模型訓練時被初始化,然后經過逐漸學習和調優而確定.

word2vec CBOW(Continuous Bag-of-Words 連續詞袋)

CBOW模型

CBOW模型是利用前后的詞來預測當前的詞.比如"我愛中華人民共和國",假如窗口為2,即利用"我" "愛"和"人民" "共和國"來預測"中華"這個詞, 此模型相對NNML計算量要小很多, 該模型沒有隱藏層并且直接使用低維稠密的向量來進行表示. 投影層是進行了求和處理. 假如我們的輸入都是200維的向量,字典size大小為40000, 那么輸出就是一個40000維的向量,而且中間從映射層到輸出層的參數w是200x40000,這是很不好處理的. 所以CBOW最后一層采用了霍夫曼壓縮編碼(huffman tree). 輸出為一個200維的向量.

word2vec Skip-gram模型

Skip-gram模型

Skip-gram和CBOW模型相反, 是由當前詞來預測context, 該模型同樣也沒要隱藏層,投影層也可以忽略. 最后也是進行霍夫曼編碼.關于word2vec的詳細講解可參考word2vec的數學原理詳解.

wor2vec存在的問題

對同一個詞使用了唯一的詞向量的表示,無法表達一次多義的情況.
對每個local context window 單獨訓練, 沒有利用包含在Global co-currence矩陣中的統計信息.

最后編輯于：2017.12.04 06:20:26

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發布，文章內容僅代表作者本人觀點，簡書系信息發布平臺，僅提供信息存儲服務。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 227,967評論 6贊 531
死咒
序言：濱河連續發生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發現死者居然都...
沈念sama閱讀 98,273評論 3贊 415
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 175,870評論 0贊 373
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 62,742評論 1贊 309
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 71,527評論 6贊 407
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發上，一...
開封第一講書人閱讀 55,010評論 1贊 322
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,108評論 3贊 440
雙鴛鴦連環套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 42,250評論 0贊 288
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發現了一具尸體，經...
沈念sama閱讀 48,769評論 1贊 333
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 40,656評論 3贊 354
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發現自己被綠了。大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 42,853評論 1贊 369
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,371評論 5贊 358
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發生泄漏。R本人自食惡果不足惜，卻給世界環境...
茶點故事閱讀 44,103評論 3贊 347
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 34,472評論 0贊 26
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 35,717評論 1贊 281
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 51,487評論 3贊 390
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 47,815評論 2贊 372

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

詞向量(word embeddings)與相關應用

詞向量(word embeddings)與相關應用

自然語言處理中文本數值化表方法

離散表示： one-hot表示

舉例：

離散表示：Bag of Words (詞袋表示)

離散表示： Bi-gram和N-gram （考慮詞的順序）

分布式表示(Distributed representation)

共現矩陣(Cocurrence matrix)

NNML(Neural Network Language Model)

word2vec CBOW(Continuous Bag-of-Words 連續詞袋)

word2vec Skip-gram模型

wor2vec存在的問題

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

詞向量(word embeddings)與相關應用

自然語言處理中文本數值化表方法

離散表示： one-hot表示

舉例：

離散表示：Bag of Words (詞袋表示)

離散表示： Bi-gram和N-gram （考慮詞的順序）

分布式表示(Distributed representation)

共現矩陣(Cocurrence matrix)

NNML(Neural Network Language Model)

word2vec CBOW(Continuous Bag-of-Words 連續詞袋)

word2vec Skip-gram模型

wor2vec存在的問題

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频