中文分詞算法之HMM和Viterbi（維特比）算法理解

正文之前

這周二開博士沙龍，大老板對我想做的方向，很感興趣。。我他么有點害怕，聽同組師兄的女朋友，也是一個大老板門下的師姐說，在他們那一次博士沙龍，大老板對我大加褒獎，不吝溢美之詞，讓我更害怕了。這是一份沉甸甸的壓力，我自覺我還是個小菜雞，還不至于成為大老板手上的小紅人，所以我怕自己讓大老板失望，那樣就不好了。不過既然都這樣了，那就好好學(xué)吧。對吧，大老板還推薦大家都來看看《漢字》這個紀(jì)錄片。。也就是他想讓我做的方向的一個很好地啟蒙片。。。我就推薦下吧

漢字-Bilibili 1080p國語中字

正文

最近讀了一個博客，里面簡述了一些中文分詞算法，現(xiàn)在正在深入研究維特比算法，鏈接如下，有興趣的朋友可以去看看全文：

淺談分詞算法（3）基于字的分詞方法（HMM）

具體的內(nèi)容不多說，下面就簡單講下我對這里面的Viterbi算法的理解。

首先需要介紹下隱馬爾科夫模型（Hidden Markov Model，HMM）：

HMM包含如下的五元組：

狀態(tài)值集合Q={q1,q2,...,qN}，其中N為可能的狀態(tài)數(shù)；在本文的例子中，就是漢字有可能的四個狀態(tài)（B,M,E,S），分別表示詞的開始、結(jié)束、中間（begin、end、middle）及字符獨立成詞（single）
觀測值集合V={v1,v2,...,vM}，其中M為可能的觀測數(shù)；觀測值就是文本中的字咯；
轉(zhuǎn)移概率矩陣A=[aij]，其中aij表示從狀態(tài)i轉(zhuǎn)移到狀態(tài)j的概率；這個在本中文是指從一個狀態(tài)轉(zhuǎn)移到另一個狀態(tài)的概率；
發(fā)射概率矩陣（也稱之為觀測概率矩陣）B=[bj(k)]，其中bj(k)表示在狀態(tài)j的條件下生成觀測vk的概率；本文中指一個字在某一狀態(tài)的可能性。這個是先驗的（就是說通過統(tǒng)計方法得到的）
初始狀態(tài)分布π.（初始值，內(nèi)部給定）

一般地，將HMM表示為模型λ=(A,B,π)，狀態(tài)序列為I，對應(yīng)測觀測序列為O。對于這三個基本參數(shù)，HMM有三個基本問題：

概率計算問題，在模型λ下觀測序列O出現(xiàn)的概率；
學(xué)習(xí)問題，已知觀測序列O，估計模型λ的參數(shù)，使得在該模型下觀測序列P(O|λ)最大；
解碼（decoding）問題，已知模型λ與觀測序列O，求解條件概率P(I|O)最大的狀態(tài)序列I。

更詳細(xì)的，簡潔的說法請參見wiki吧，or有個博客講的也還算清晰，主要看以天氣和治病為例子的那些真實世界映射，骰子那個不是那么好理解wiki百科關(guān)于維特比和 ||||||||||||| 一文搞懂HMM（隱馬爾可夫模型） |||||||||||||

想象一個鄉(xiāng)村診所。村民有著非常理想化的特性，要么健康要么發(fā)燒。他們只有問診所的醫(yī)生的才能知道是否發(fā)燒。聰明的醫(yī)生通過詢問病人的感覺診斷他們是否發(fā)燒。村民只回答他們感覺正常、頭暈或冷。

假設(shè)一個病人每天來到診所并告訴醫(yī)生他的感覺。醫(yī)生相信病人的健康狀況如同一個離散馬爾可夫鏈。病人的狀態(tài)有兩種“健康”和“發(fā)燒”，但醫(yī)生不能直接觀察到，這意味著狀態(tài)對他是“隱含”的。每天病人會告訴醫(yī)生自己有以下幾種由他的健康狀態(tài)決定的感覺的一種：正常、冷或頭暈。這些是觀察結(jié)果。整個系統(tǒng)為一個隱馬爾可夫模型(HMM)。

醫(yī)生知道村民的總體健康狀況，還知道發(fā)燒和沒發(fā)燒的病人通常會抱怨什么癥狀。換句話說，醫(yī)生知道隱馬爾可夫模型的參數(shù)。這可以用Python語言表示如下:

states = ('Healthy', 'Fever')
 
observations = ('normal', 'cold', 'dizzy')
 
start_probability = {'Healthy': 0.6, 'Fever': 0.4}
 
transition_probability = {
   'Healthy' : {'Healthy': 0.7, 'Fever': 0.3},
   'Fever' : {'Healthy': 0.4, 'Fever': 0.6},
   }
 
emission_probability = {
   'Healthy' : {'normal': 0.5, 'cold': 0.4, 'dizzy': 0.1},
   'Fever' : {'normal': 0.1, 'cold': 0.3, 'dizzy': 0.6},
}

上面關(guān)于HMM的敘述大部分來自原文，所以大家可以去看原文，結(jié)合我的看就好了

如何從HMM模型到維特比算法，還請大家移步原文看，我就不多贅述，還是上代碼加注釋會比較好，畢竟我主要的工作就是加了一些注釋。

# -*- coding: utf-8 -*-
'''
start：初始概率分布，大概就是第一個字的狀態(tài)的概率吧
tran ：狀態(tài)轉(zhuǎn)移概率，從當(dāng)前狀態(tài)到下一個狀態(tài)的轉(zhuǎn)移的概率，
emit ：發(fā)射概率，表示在某一狀態(tài)下生成某個觀測狀態(tài)（在這一狀態(tài)下，這個字是這個狀態(tài)）的概率
'''
import sys
import re
import getopt

MIN_FLOAT = -3.14e100

PROB_START_P = "prob_start.p"
PROB_TRANS_P = "prob_trans.p"
PROB_EMIT_P = "prob_emit.p"
#某一個詞的狀態(tài)為key時，prevStatus表示前一個詞的狀態(tài)的框定范圍
PrevStatus = {
    'B': 'ES',
    'M': 'MB',
    'S': 'SE',
    'E': 'BM'
}

Force_Split_Words = set([])
from prob_start import P as start_P
from prob_trans import P as trans_P
from prob_emit import P as emit_P


def viterbi(obs, states, start_p, trans_p, emit_p):
    V = [{}]  # tabular
    path = {}
    for y in states:  # init 獲取這一句子的初始狀態(tài)分布
        V[0][y] = start_p[y] + emit_p[y].get(obs[0], MIN_FLOAT)
        path[y] = [y]
    # 對之后的每一個字做狀態(tài)轉(zhuǎn)移概率的分析
    for t in range(1, len(obs)):
        V.append({})
        newpath = {}
        # 考察當(dāng)前字，對于上一個字的發(fā)射概率，取其中最大的那個
        for y in states:
            #獲取當(dāng)前詞在y狀態(tài)下的發(fā)射概率
            em_p = emit_p[y].get(obs[t], MIN_FLOAT)
            # y狀態(tài)在prevStatus的限定后，前一個詞的限定范圍內(nèi)某一狀態(tài)y0的概率 +  y0對當(dāng)前字的y狀態(tài)的轉(zhuǎn)移概率 + 當(dāng)前詞在y狀態(tài)下的發(fā)射概率（其實就是這個詞是某個狀態(tài)的概率的意思）
            # state表示前一個字到當(dāng)前字的y狀態(tài)的最大概率，prob表示這個概率。
            (prob, state) = max(
                [
                    (V[t - 1][y0] + trans_p[y0].get(y, MIN_FLOAT) + em_p,   y0)
                 for y0 in PrevStatus[y]
                ]
            )
            #得到了當(dāng)前字的所有可能觀測狀態(tài)的最大概率值
            V[t][y] = prob
            # 更新路徑，state表示當(dāng)前字的前一個字到當(dāng)前字的y狀態(tài)的最大可能概率，所以是path[state]，因為要取前一個字的最大概率路徑
            newpath[y] = path[state] + [y]
        path = newpath
    # 最后一個要重新復(fù)盤,因為最后一個字只能是E or S
    (prob, state) = max((V[len(obs) - 1][y], y) for y in 'ES')
    for i in path:
        print((i,path[i]))
    for v in  V:
        print((v))
    return (prob, path[state])


def __cut(sentence):
    prob, pos_list = viterbi(sentence, 'BMES', start_P, trans_P, emit_P)
    begin, nexti = 0, 0
    # print pos_list, sentence
    for i, char in enumerate(sentence):
        pos = pos_list[i]
        if pos == 'B':
            begin = i
        elif pos == 'E':
            yield sentence[begin:i + 1]
            nexti = i + 1
        elif pos == 'S':
            yield char
            nexti = i + 1
    if nexti < len(sentence):
        yield sentence[nexti:]


re_han = re.compile("([\u4E00-\u9FD5]+)")
re_skip = re.compile("([a-zA-Z0-9]+(?:\.\d+)?%?)")


def cut(sentence):
    sentence = sentence.strip().decode('utf-8')
    blocks = re_han.split(sentence)
    lseg = []
    for blk in blocks:
        if re_han.match(blk):
            for word in __cut(blk):
                if word not in Force_Split_Words:
                    lseg.append(word)
                else:
                    for c in word:
                        lseg.append(c)
        else:
            tmp = re_skip.split(blk)
            for x in tmp:
                if x:
                    lseg.append(x)
    return lseg


if __name__ == "__main__":
    ifile = 'input.txt'
    ofile = 'seg.txt'
    # try:
    #     opts, args = getopt.getopt(sys.argv[1:], "hi:o:", ["ifile=", "ofile="])
    # except getopt.GetoptError:
    #     print('seg_hmm.py -i <inputfile> -o <outputfile>')
    #     sys.exit(2)
    # for opt, arg in opts:
    #     if opt == '-h':
    #         print('seg_hmm.py -i <inputfile> -o <outputfile>')
    #         sys.exit()
    #     elif opt in ("-i", "--ifile"):
    #         ifile = arg
    #     elif opt in ("-o", "--ofile"):
    #         ofile = arg

    with open(ifile, 'rb') as inf:
        for line in inf:
            rs = cut(line)
            print(' '.join(rs))
            with open(ofile, 'a',encoding='utf8') as outf:
                outf.write(' '.join(rs) + "\n")

OK，該說的都在代碼上了，想要我細(xì)細(xì)道來也別想了。。麻煩，好人做到底，我再附個圖,這下應(yīng)該簡單明了了：

----------圖片上傳不了。。。---------去下面看吧----------

圖片來源知乎：如何通俗地講解 viterbi 算法？

正文之后

OK，溜了，在代碼中還學(xué)習(xí)到了yield和enumerate的用法，開心`

最后編輯于：2019.09.18 16:02:11

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明：文章內(nèi)容（如有圖片或視頻亦包括在內(nèi)）由作者上傳并發(fā)布，文章內(nèi)容僅代表作者本人觀點，簡書系信息發(fā)布平臺，僅提供信息存儲服務(wù)。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 227,818評論 6贊 531
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 98,185評論 3贊 414
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 175,656評論 0贊 373
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經(jīng)常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 62,647評論 1贊 309
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當(dāng)我...
茶點故事閱讀 71,446評論 6贊 405
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 54,951評論 1贊 321
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,041評論 3贊 440
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 42,189評論 0贊 287
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 48,718評論 1贊 333
?護(hù)林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 40,602評論 3贊 354
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 42,800評論 1贊 369
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,316評論 5贊 358
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 44,045評論 3贊 347
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 34,419評論 0贊 26
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 35,671評論 1贊 281
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 51,420評論 3贊 390
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 47,755評論 2贊 371

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

中文分詞算法之HMM和Viterbi（維特比）算法理解

中文分詞算法之HMM和Viterbi（維特比）算法理解

正文之前

正文

正文之后

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

中文分詞算法之HMM和Viterbi（維特比）算法理解

正文之前

正文

正文之后

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频