python學習 二 02 爬一個圖片網站,獲得主鏈接網址,并保存
python學習 二 03 爬一個圖片網站-獲得所有分頁網址
python學習 二 04 爬一個圖片網站-解析文件,獲得所有圖片鏈接
python學習 三 01 再爬一個網站,幾行代碼,搞定分類類別
python學習 三 03 再爬一個網站,根據分頁,下載圖片
Python 數據挖掘學習
一 結巴分詞
github地址:https://github.com/fxsjy/jieba
"結巴"中文分詞:做最好的 Python 中文分詞組件
還記得當時想用C++,實現分詞,資料那個難找,調試那個麻煩,BUG那個多,說多了都是淚,開始入手python 數據挖掘,看看這個能簡單不。
安裝
這種效率比c++安裝分詞庫 方便多了。
使用
詞性標注
常用的一些符號及詞性的對應關系為:a:形容詞c:連詞d:副詞e:嘆詞f:方位詞i:成語m:數詞n:名詞nr:人名ns:地名nt:機構團體nz:其他專有名詞p:介詞r:代詞t:時間u:助詞v:動詞vn:名動詞w:標點符號un:未知詞語
更詳細資料 可以搜索 計算所漢語詞性標記集
一個自定義字典的例子:
注意要用:UTF-8格式保存
基本用法
1、?基本分詞
2、?根據詞性屬性分詞
創建字典
UTF-8格式保存
3、?提取關鍵字
4、?返回詞語位置