分詞實驗報告

? ? ? ? 在對中文文本信息進行處理前,先將成段的文本分割成更小的詞匯單元,這個過程即是中文分詞。中文分詞是智能檢索、文獻索引、機器翻譯以及自然語言處理和語義分析的基礎。

實驗目的:對文本信息進行中文分詞

實驗步驟:認識分詞工具包mmseg4j——配置環境——數據導入——選擇分詞字典——分詞


目錄:

1、認識中文分詞包(下載、安裝與運行)

2、分詞方法與效果分析

3、分詞包背后的分詞算法學習

4、分詞結果提交


1.1 了解mmseg4j分詞工具包

mmseg4j分詞器用Chih-Hao Tsai 的MMSeg算法實現的中文分詞器,并實現lucene的analyzer和solr的TokenizerFactory以方便在Lucene和solr中使用。MMSeg實現了兩種分詞方法:simple和complex。并且這兩種方法都是基于正向最大匹配。mmseg4j自帶的主詞典是獎金15萬的搜狗詞庫,除此之外它支持名為wordsxxx.dic,編碼格式為UTF-8的用戶自定義詞典。

(lucene是一個開放源代碼的全文檢索引擎工具包,但它不是一個完整的全文檢索引擎,而是一個全文檢索引擎的架構,提供了完整的查詢引擎和索引引擎,部分文本分析引擎(英文與德文兩種西方語言)。Lucene的目的是為軟件開發人員提供一個簡單易用的工具包,以方便的在目標系統中實現全文檢索的功能,或者是以此為基礎建立起完整的全文檢索引擎。

Solr是一個高性能,采用Java5開發,基于Lucene的全文搜索服務器。同時對其進行了擴展,提供了比Lucene更為豐富的查詢語言,同時實現了可配置、可擴展并對查詢性能進行了優化,并且提供了一個完善的功能管理界面,是一款非常優秀的全文搜索引擎。)

1.2 下載

下載鏈接:

如何安裝java環境

怎樣在win7中 安裝Tomcat7.0

apache lucene solr 官網歷史版本下載地址

相關jar包下載

1.3 運行

windows運行界面打開cmd

進入下載文件保存目錄(我保存在D盤)

d:

cd ?mmseg4j

輸入命令(字符串用文本替換)

java-cpmmseg4j-core-1.10.0.jar com.chenlb.mmseg4j.example.MaxWord 字符串

得到分詞結果

2.1分詞方法

常用分詞方法有:

基于字符串匹配的方法:正向最大匹配分詞算法、逆向最大匹配分詞、雙向最大匹配分詞算法、最少切分分詞算法等。

基于字符串匹配的分詞方法和基于統計的分詞方法對比。(詳情略)


2.2效果分析

分析MMSeg實現的兩種分詞方法:simple和complex,他們都是基于正向最大匹配。

Simple——在一串字符串中從開頭匹配子串,找到所有可能的匹配。

Complex——在一串字符中,找到所有可能的三字塊開始匹配,尋找最大長度的字塊。

用兩種方法對下面這段文本進行分詞

2017年5月17日,美國雪城大學馬克斯韋爾公民與公共事務學院終身教授馬穎毅博士應邀來訪我院,并做了主題為“中國留學生眼中的中美教育”的學術講座。出席本次學術講座的有我院各專業本科生、研究生,以及沙治慧教授、陳進副教授等教師。本次講座會由沙治慧教授主持。


3. mmseg4j分詞算法

(詳情參考:mmseg分詞算法及實現

參考鏈接:

11大Java開源中文分詞器的使用方法和分詞效果對比

MMSeg中文分詞算法


4.分詞結果提交

由于mmseg4j源碼中沒有提供把分詞結果保存成文件的方法,需要自己在源碼中修改,然后打包成jar。

參考Lucene-----查看分詞結果

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,345評論 6 531
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,494評論 3 416
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事?!?“怎么了?”我有些...
    開封第一講書人閱讀 176,283評論 0 374
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,953評論 1 309
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,714評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,186評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,255評論 3 441
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,410評論 0 288
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,940評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,776評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,976評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,518評論 5 359
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,210評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,642評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,878評論 1 286
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,654評論 3 391
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,958評論 2 373

推薦閱讀更多精彩內容