What
中文分詞系統
Why
已有的分詞系統都是建立在character-based sequence labeling基礎上的,只有窗口內的信息和相鄰tags的interaction會被考慮到。
而該系統utilize complete segmentation history且沒有窗口的限制了。
How
綜述:1. 利用gated combination neural network over characters生成候選的分詞方法。2. 再用LSTM language scoring model給其評分。
首先介紹評分系統:
character embedding, 給每個漢字一個字向量(字向量經訓練效果會更好)
-
用gated combination neural network的方法把字向量轉變為詞向量
r:reset gates z:update gates
圖中,w為詞向量,c1...cL是字向量。其余為帶訓練的參數。該方法可有效capture漢字和漢字之間的交互關系。
-
用word score給每個獲得的詞向量打分。
yi: 詞向量 u:訓練參數,代表yi多大可能是個真實存在的詞 LSTM來為詞與詞之間的link關系打分
P_{t+1}是待訓練的參數,代表當前詞和下一個詞的連續程度
- 為整個句子打分:link score和word score之和
第二部分是如何獲得待評分的分詞方法
不能用維特比方法,因為該方法是基于馬爾科夫鏈的假設(只有相鄰的詞之間才有相互作用,不符合本文利用全部segmentation history的假設)。
故而采用集束搜索。具體可見文中偽代碼。
最后介紹訓練方法
定義max-margin(hinge loss)為不正確的分詞個數乘以平滑參數,并以此定義l2范式形式的損失函數。
由于目標函數不能微分,采用subgradient method訓練。