? ? ? ? 在對中文文本信息進行處理前,先將成段的文本分割成更小的詞匯單元,這個過程即是中文分詞。中文分詞是智能檢索、文獻索引、機器翻譯以及自然語言處理和語義分析的基礎。
實驗目的:對文本信息進行中文分詞
實驗步驟:認識分詞工具包mmseg4j——配置環境——數據導入——選擇分詞字典——分詞
目錄:
1、認識中文分詞包(下載、安裝與運行)
2、分詞方法與效果分析
3、分詞包背后的分詞算法學習
4、分詞結果提交
1.1 了解mmseg4j分詞工具包
mmseg4j分詞器用Chih-Hao Tsai 的MMSeg算法實現的中文分詞器,并實現lucene的analyzer和solr的TokenizerFactory以方便在Lucene和solr中使用。MMSeg實現了兩種分詞方法:simple和complex。并且這兩種方法都是基于正向最大匹配。mmseg4j自帶的主詞典是獎金15萬的搜狗詞庫,除此之外它支持名為wordsxxx.dic,編碼格式為UTF-8的用戶自定義詞典。
(lucene是一個開放源代碼的全文檢索引擎工具包,但它不是一個完整的全文檢索引擎,而是一個全文檢索引擎的架構,提供了完整的查詢引擎和索引引擎,部分文本分析引擎(英文與德文兩種西方語言)。Lucene的目的是為軟件開發人員提供一個簡單易用的工具包,以方便的在目標系統中實現全文檢索的功能,或者是以此為基礎建立起完整的全文檢索引擎。
Solr是一個高性能,采用Java5開發,基于Lucene的全文搜索服務器。同時對其進行了擴展,提供了比Lucene更為豐富的查詢語言,同時實現了可配置、可擴展并對查詢性能進行了優化,并且提供了一個完善的功能管理界面,是一款非常優秀的全文搜索引擎。)
1.2 下載
下載鏈接:
1.3 運行
windows運行界面打開cmd
進入下載文件保存目錄(我保存在D盤)
d:
cd ?mmseg4j
輸入命令(字符串用文本替換)
java-cpmmseg4j-core-1.10.0.jar com.chenlb.mmseg4j.example.MaxWord 字符串
得到分詞結果
2.1分詞方法
常用分詞方法有:
基于字符串匹配的方法:正向最大匹配分詞算法、逆向最大匹配分詞、雙向最大匹配分詞算法、最少切分分詞算法等。
基于字符串匹配的分詞方法和基于統計的分詞方法對比。(詳情略)
2.2效果分析
分析MMSeg實現的兩種分詞方法:simple和complex,他們都是基于正向最大匹配。
Simple——在一串字符串中從開頭匹配子串,找到所有可能的匹配。
Complex——在一串字符中,找到所有可能的三字塊開始匹配,尋找最大長度的字塊。
用兩種方法對下面這段文本進行分詞
2017年5月17日,美國雪城大學馬克斯韋爾公民與公共事務學院終身教授馬穎毅博士應邀來訪我院,并做了主題為“中國留學生眼中的中美教育”的學術講座。出席本次學術講座的有我院各專業本科生、研究生,以及沙治慧教授、陳進副教授等教師。本次講座會由沙治慧教授主持。
3. mmseg4j分詞算法
(詳情參考:mmseg分詞算法及實現)
參考鏈接:
4.分詞結果提交
由于mmseg4j源碼中沒有提供把分詞結果保存成文件的方法,需要自己在源碼中修改,然后打包成jar。