[轉(zhuǎn)載]深度學(xué)習(xí)技術(shù)在文本數(shù)據(jù)智能處理中的實踐

在前不久InfoQ主辦的Qcon全球軟件開發(fā)大會上,達(dá)觀數(shù)據(jù)創(chuàng)始人陳運(yùn)文博士受邀出席發(fā)表了《文本智能處理的深度學(xué)習(xí)技術(shù)》的演講。深度學(xué)習(xí)在人工智能領(lǐng)域已經(jīng)成為熱門的技術(shù),特別是在圖像和聲音領(lǐng)域相比傳統(tǒng)的算法大大提升了識別率。在文本智能處理中深度學(xué)習(xí)有怎樣的具體實踐方法?以下內(nèi)容根據(jù)陳運(yùn)文博士現(xiàn)場分享整理所得。

人工智能目前的三個主要細(xì)分領(lǐng)域為圖像、語音和文本,老師分享的是達(dá)觀數(shù)據(jù)所專注的文本智能處理領(lǐng)域。文本智能處理,亦即自然語言處理,試圖讓機(jī)器來理解人類的語言,而語言是人類認(rèn)知發(fā)展過程中產(chǎn)生的高層次抽象實體,不像圖像、語音可以直接轉(zhuǎn)化為計算機(jī)可理解的對象,它的主要應(yīng)用主要是在智能問答,機(jī)器翻譯,文本分類,文本摘要,標(biāo)簽提取,情感分析,主題模型等等方面。

自然語言的發(fā)展歷程經(jīng)歷了以下幾個階段。這里值得一提的是,關(guān)于語言模型,早在2000年,百度IDL的徐偉博士提出了使用神經(jīng)網(wǎng)絡(luò)來訓(xùn)練二元語言模型,隨后Bengio等人在2001年發(fā)表在NIPS上的文章《A Neural Probabilistic Language Model》,正式提出神經(jīng)網(wǎng)絡(luò)語言模型(NNLM),在訓(xùn)練模型的過程中也能得到詞向量。2007年,Mnih和Hinton在神經(jīng)網(wǎng)絡(luò)語言模型(NNLM)的基礎(chǔ)上提出了log雙線性語言模型(Log-Bilinear Language Model,LBL),同時,Hinton在2007年發(fā)表在 ICML 上的《Three new graphical models for statistical language modelling》初見其將深度學(xué)習(xí)搬入NLP的決心。2008年,Ronan Collobert等人 在ICML 上發(fā)表了《A Unified Architecture for Natural Language Processing: Deep Neural Networks with Multitask Learning》,其中的模型名字叫C&W模型,這是第一個直接以生成詞向量為目標(biāo)的模型。LBL與NNLM的區(qū)別正如它們的名字所示,LBL的模型結(jié)構(gòu)是一個log雙線性結(jié)構(gòu);而NNLM的模型結(jié)構(gòu)為神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。這些積淀也成就了Mikolov創(chuàng)造了實用高效的Word2Vec工具,起初,他用循環(huán)神經(jīng)網(wǎng)絡(luò)RNNLM來做語言模型,發(fā)表paper《Recurrent neural network based language model》,之后就是各種改進(jìn),博士論文研究的也是用循環(huán)神經(jīng)網(wǎng)絡(luò)來做語言模型,《Statistical Language Models based on Neural Networks》。2013年,Mikolov等人同時提出了CBOW和Skip-gram模型。使用了Hierarchial Softmax和Negative Sampling兩種trick來高效獲取詞向量。當(dāng)然這個模型不是一蹴而就的,而是對于前人在NNLM、RNNLM和C&W模型上的經(jīng)驗,簡化現(xiàn)有模型,保留核心部分而得到的。同時開源了Word2Vec詞向量生成工具,深度學(xué)習(xí)才在NLP領(lǐng)域遍地開花結(jié)果。


一般地,文本挖掘各種類型應(yīng)用的處理框架如下所示:



文本數(shù)據(jù)經(jīng)過清洗、分詞等預(yù)處理之后,傳統(tǒng)方法通過提取諸如詞頻、TF-IDF、互信息、信息增益等特征形成高維稀疏的特征集合,而現(xiàn)在則基本對詞進(jìn)行embedding形成低維稠密的詞向量,作為深度學(xué)習(xí)模型的輸入,這樣的框架可用于文本分類、情感分析、機(jī)器翻譯等等應(yīng)用場景,直接端到端的解決問題,也無需大量的特征工程,無監(jiān)督訓(xùn)練詞向量作為輸入可帶來效果的極大提升。

文本分類

對于文本分類,以下列出了幾種典型的深度學(xué)習(xí)模型:


序列標(biāo)注

序列標(biāo)注的任務(wù)就是給每個漢字打上一個標(biāo)簽,對于分詞任務(wù)來說,我們可以定義標(biāo)簽集合為:<nobr aria-hidden="true">LabelSet={B,M,E,S}</nobr>

。B代表這個漢字是詞匯的開始字符,M代表這個漢字是詞匯的中間字符,E代表這個漢字是詞匯的結(jié)束字符,而S代表單字詞。下圖為中文分詞序列標(biāo)注過程:

中文分詞轉(zhuǎn)換為對漢字的序列標(biāo)注問題,假設(shè)我們已經(jīng)訓(xùn)練好了序列標(biāo)注模型,那么分別給每個漢字打上標(biāo)簽集合中的某個標(biāo)簽,這就算是分詞結(jié)束了,因為這種形式不方便人來查看,所以可以增加一個后處理步驟,把B開頭,后面跟著M的漢字拼接在一起,直到碰見E標(biāo)簽為止,這樣就等于分出了一個單詞,而打上S標(biāo)簽的漢字就可以看做是一個單字詞。于是我們的例子就通過序列標(biāo)注,被分詞成如下形式:{跟著 Tfboys 學(xué) 左手 右手 一個 慢動作}

對于序列標(biāo)注,傳統(tǒng)的方法基本是使用大量的特征工程,進(jìn)入CRF模型,但不同的領(lǐng)域需要進(jìn)行相應(yīng)的調(diào)整,無法做到通用。而深度學(xué)習(xí)模型,例如Bi-LSTM+CRF則避免了這樣的情況,可以通用于不同的領(lǐng)域,且直接采用詞向量作為輸入,提高了泛化能力,使用LSTM和GRU等循環(huán)神經(jīng)網(wǎng)絡(luò)還可以學(xué)習(xí)到一些較遠(yuǎn)的上下文特征和一些非線性特征。

經(jīng)典的Bi-LSTM+CRF模型如下所示:


生成式摘要

對于生成式摘要,采用Encode-Decoder模型結(jié)構(gòu),兩者都為神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),輸入原文經(jīng)過編碼器編碼為向量,解碼器從向量中提取關(guān)鍵信息,組合成生成式摘要。當(dāng)然,還會在解碼器中引入注意力機(jī)制,以解決在長序列摘要的生成時,個別字詞重復(fù)出現(xiàn)的問題。

此外,在生成式摘要中,采用強(qiáng)化學(xué)習(xí)與深度學(xué)習(xí)相結(jié)合的學(xué)習(xí)方式,通過最優(yōu)化詞的聯(lián)合概率分布,即MLE(最大似然),有監(jiān)督進(jìn)行學(xué)習(xí),在這里生成候選的摘要集。模型圖如下:


模型圖中的ROUGE指標(biāo)評價是不可導(dǎo)的,所以無法采用梯度下降的方式訓(xùn)練,這樣我們就考慮強(qiáng)化學(xué)習(xí),鼓勵reward高的模型,通過給予反饋來更新模型。最終訓(xùn)練得到表現(xiàn)最好的模型。

知識圖譜關(guān)系抽取

對于知識圖譜的關(guān)系抽取,主要有兩種方法,一個是基于參數(shù)共享的方法,對于輸入句子通過共用的 word embedding 層,然后接雙向的 LSTM 層來對輸入進(jìn)行編碼。然后分別使用一個 LSTM 來進(jìn)行命名實體識別 (NER)和一個 CNN 來進(jìn)行關(guān)系分類(RC);另一個是基于聯(lián)合標(biāo)注的方法,把原來涉及到序列標(biāo)注任務(wù)和分類任務(wù)的關(guān)系抽取完全變成了一個序列標(biāo)注問題。然后通過一個端對端的神經(jīng)網(wǎng)絡(luò)模型直接得到關(guān)系實體三元組。

如下圖所示,我們有三類標(biāo)簽,分別是 ①單詞在實體中的位置{B(begin),I(inside),E(end),S(single)}、②關(guān)系類型{CF,CP,…}和③關(guān)系角色{1(entity1),2(entity2)},根據(jù)標(biāo)簽序列,將同樣關(guān)系類型的實體合并成一個三元組作為最后的結(jié)果,如果一個句子包含一個以上同一類型的關(guān)系,那么就采用就近原則來進(jìn)行配對。


總結(jié)--深度學(xué)習(xí)用于文本挖掘的優(yōu)缺點

優(yōu)點:

1. 可以使用非監(jiān)督數(shù)據(jù)訓(xùn)練字詞向量,提升泛化能力

2. 端到端,提供新思路

3. 一些模型結(jié)構(gòu)能夠克服傳統(tǒng)模型缺點

缺點:

1. 小數(shù)據(jù)量效果不一定好

2. 調(diào)參工作量有時不亞于特征工程

3. 客戶部署硬件環(huán)境限制
--原文鏈接--

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,156評論 6 529
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 97,866評論 3 413
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 174,880評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,398評論 1 308
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 71,202評論 6 405
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 54,743評論 1 320
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 42,822評論 3 438
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 41,962評論 0 285
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 48,476評論 1 331
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 40,444評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,579評論 1 365
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,129評論 5 355
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 43,840評論 3 344
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,231評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,487評論 1 281
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,177評論 3 388
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 47,568評論 2 370

推薦閱讀更多精彩內(nèi)容