這兩天一直在跟著professor Lei學(xué)Python,由于課程講解是以實(shí)際的商務(wù)應(yīng)用為基礎(chǔ)的,所以,內(nèi)容講得倒是不枯燥,很有趣。今天professor Lei講到如何使用Python來進(jìn)行自然語言的分詞處理。由于只學(xué)到如何分詞,還沒有學(xué)如何去停止詞以及如何添加本地詞庫,所以,今天記錄一下學(xué)到的技能。
內(nèi)容:構(gòu)建中文分詞類。
要求:1.實(shí)現(xiàn)中文分詞;2.統(tǒng)計(jì)詞頻,并降序排列
基本思路:1.該類中有兩個(gè)方法:中文分詞(cut),返回分詞列表;2.詞頻統(tǒng)計(jì)(mum),返回”關(guān)鍵詞-詞頻“列表;2.再構(gòu)造方法”__init__()”中對(duì)字符串賦值。
利用以上的內(nèi)容,隨手從網(wǎng)上抓取了一段文字進(jìn)行練習(xí)。內(nèi)容為:“為國家謀發(fā)展,為人民謀幸福,習(xí)近平總書記提醒我們始終要有一種“等不起”的緊迫感和“慢不得”的危機(jī)感。 在抗擊疫情的關(guān)鍵階段,習(xí)近平總書記啟動(dòng)了爭分奪秒的中國加速度。他反復(fù)強(qiáng)調(diào),同時(shí)間賽跑,與病魔較量。 當(dāng)時(shí)間進(jìn)入脫貧攻堅(jiān)收官之年,習(xí)近平已在多個(gè)場(chǎng)合發(fā)出沖鋒號(hào)令,表明堅(jiān)決打贏脫貧攻堅(jiān)戰(zhàn)的決心。在3月6日召開的決戰(zhàn)決勝脫貧攻堅(jiān)座談會(huì)上,他親自數(shù)算著時(shí)間:“今年滿打滿算還有不到10個(gè)月的時(shí)間,按日子算就是300天……” 時(shí)間不等人,分分秒秒都很珍貴。 第二季度,是搶時(shí)間、趕進(jìn)度、補(bǔ)損失的關(guān)鍵時(shí)期。只有千方百計(jì)把落下的進(jìn)度趕回來,把疫情造成的損失奪回來,才能確保各項(xiàng)目標(biāo)任務(wù)如期完成。 直面挑戰(zhàn)、迅速行動(dòng);必須盡早再動(dòng)員、再部署;復(fù)工復(fù)產(chǎn)提速擴(kuò)面;生產(chǎn)生活秩序加快恢復(fù)……習(xí)近平總書記以超乎尋常的緊迫感和時(shí)間感指導(dǎo)工作,目標(biāo)就是要把“失去的時(shí)間奪回來”。 奮力追趕,但脫貧的成色不能減,經(jīng)濟(jì)社會(huì)發(fā)展的質(zhì)量不能降。 中國人民就是在追趕時(shí)間中不斷創(chuàng)造歷史的。習(xí)近平總書記堅(jiān)定表示,“我們必須同時(shí)間賽跑、同歷史并進(jìn)。”“我們必須走在時(shí)間前面”。 ”練習(xí)的結(jié)果如下:
[(',', 17),
('的', 15),
('。', 12),
('時(shí)間', 11),
('“', 6),
('習(xí)近平', 5),
('”', 5),
('在', 5),
('、', 5),
('總書記', 4),
('脫貧', 4),
('…', 4),
('我們', 3),
(' ', 3),
('同', 3),
('就是', 3),
('把', 3),
(';', 3),
('必須', 3),
('為', 2),
('人民', 2),
('要', 2),
('等', 2),
('緊迫感', 2),
('和', 2),
('疫情', 2),
('中國', 2),
('他', 2),
('賽跑', 2),
('攻堅(jiān)', 2),
('月', 2),
('進(jìn)度', 2),
('損失', 2),
('奪回來', 2),
('目標(biāo)', 2),
('再', 2),
('追趕', 2),
('不能', 2),
('歷史', 2),
('國家', 1),
('謀發(fā)展', 1),
('謀', 1),
('幸福', 1),
('提醒', 1),
('始終', 1),
('有', 1),
('一種', 1),
('不起', 1),
('慢', 1),
('不得', 1),
('危機(jī)感', 1),
('抗擊', 1),
('關(guān)鍵', 1),
('階段', 1),
('啟動(dòng)', 1),
('了', 1),
('爭分奪秒', 1),
('加速度', 1),
('反復(fù)強(qiáng)調(diào)', 1),
('與', 1),
('病魔', 1),
('較量', 1),
('當(dāng)', 1),
('進(jìn)入', 1),
('收官', 1),
('之', 1),
('年', 1),
('已', 1),
('多個(gè)', 1),
('場(chǎng)合', 1),
('發(fā)出', 1),
('沖鋒', 1),
('號(hào)令', 1),
('表明', 1),
('堅(jiān)決', 1),
('打贏', 1),
('攻堅(jiān)戰(zhàn)', 1),
('決心', 1),
('3', 1),
('6', 1),
('日', 1),
('召開', 1),
('決戰(zhàn)', 1),
('決勝', 1),
('座談會(huì)', 1),
('上', 1),
('親自', 1),
('數(shù)算', 1),
('著', 1),
(':', 1),
('今年', 1),
('滿打滿算', 1),
('還有', 1),
('不到', 1),
('10', 1),
('個(gè)', 1),
('按', 1),
('日子', 1),
('算', 1),
('300', 1),
('天', 1),
('不', 1),
('人', 1),
('分分秒秒', 1),
('都', 1),
('很', 1),
('珍貴', 1),
('第二季度', 1),
('是', 1),
('搶', 1),
('趕', 1),
('補(bǔ)', 1),
('關(guān)鍵時(shí)期', 1),
('只有', 1),
('千方百計(jì)', 1),
('落下', 1),
('趕回來', 1),
('造成', 1),
('才能', 1),
('確保', 1),
('各項(xiàng)', 1),
('任務(wù)', 1),
('如期完成', 1),
('直面', 1),
('挑戰(zhàn)', 1),
('迅速行動(dòng)', 1),
('盡早', 1),
('動(dòng)員', 1),
('部署', 1),
('復(fù)工', 1),
('復(fù)產(chǎn)', 1),
('提速', 1),
('擴(kuò)面', 1),
('生產(chǎn)', 1),
('生活', 1),
('秩序', 1),
('加快', 1),
('恢復(fù)', 1),
('以', 1),
('超乎尋常', 1),
('感', 1),
('指導(dǎo)', 1),
('工作', 1),
('失去', 1),
('奮力', 1),
('但', 1),
('成色', 1),
('減', 1),
('經(jīng)濟(jì)社會(huì)', 1),
('發(fā)展', 1),
('質(zhì)量', 1),
('降', 1),
('中', 1),
('不斷', 1),
('創(chuàng)造', 1),
('堅(jiān)定', 1),
('表示', 1),
('并進(jìn)', 1),
('走', 1),
('前面', 1)]
由以上的結(jié)果可知,這里面還有很多沒有實(shí)際意義的詞語和標(biāo)點(diǎn)符號(hào),所以,如果要想把抓取的內(nèi)容為自己所用,除了把沒有實(shí)際意義的詞和標(biāo)點(diǎn)符號(hào)排除在統(tǒng)計(jì)結(jié)果之外,還需要自己建立一個(gè)本地詞庫,用于存儲(chǔ)一些自己有特殊用處且不想被拆分的詞,比如一些特殊名稱等,因此,以上的結(jié)果并不滿意。
后續(xù),將繼續(xù)學(xué)習(xí)中文分詞、詞頻統(tǒng)計(jì)以及排序和詞云等使用。