這篇文章主要參考了
[1]劉嶠,李楊,段宏,劉瑤,秦志光. 知識(shí)圖譜構(gòu)建技術(shù)綜述[J]. 計(jì)算機(jī)研究與發(fā)展,2016,(03):582-600.
其實(shí)知識(shí)圖譜這塊內(nèi)容在我自己做業(yè)務(wù)的時(shí)候也接觸到了,當(dāng)時(shí)公司一直也沒一個(gè)很好的解決方案,原來我想找本專業(yè)的書籍去看,但是這方面的公開資料實(shí)在是有點(diǎn)少,所以就在知網(wǎng)找了幾篇相關(guān)的論文看。
首先來說什么是語(yǔ)義網(wǎng),語(yǔ)義網(wǎng)絡(luò)是一張數(shù)據(jù)構(gòu)成的網(wǎng)絡(luò),語(yǔ)義網(wǎng)絡(luò)技術(shù)向用戶提供的是一個(gè)查詢環(huán)境,其核心要義是以圖形的方式向用戶返回經(jīng)過加工和推理的知識(shí)。而知識(shí)圖譜技術(shù)則是實(shí)現(xiàn)智能化語(yǔ)義檢索的基礎(chǔ)和橋梁。
知識(shí)圖譜的定義與架構(gòu)
知識(shí)圖譜的定義
知識(shí)圖譜,是結(jié)構(gòu)化的語(yǔ)義知識(shí)庫(kù),用于以符號(hào)形式描述物理世界中的概念及其相互關(guān)系,其基本組成單位是『實(shí)體-關(guān)系-實(shí)體』三元組,以及實(shí)體及其相關(guān)屬性-值對(duì),實(shí)體之間通過關(guān)系相互聯(lián)結(jié),構(gòu)成網(wǎng)狀的知識(shí)結(jié)構(gòu)。
通過知識(shí)圖譜,可以實(shí)現(xiàn)Web從網(wǎng)頁(yè)鏈接向概念鏈接轉(zhuǎn)變,支持用戶按主題而不是字符串檢索,從而實(shí)現(xiàn)真正的語(yǔ)義檢索,基于知識(shí)圖譜的搜索引擎,能夠以圖形方式向用戶反饋結(jié)構(gòu)化的知識(shí),用戶不必瀏覽大量網(wǎng)頁(yè),就可以準(zhǔn)確定位和深度獲取知識(shí)。
上述知識(shí)圖譜的定義包含三層含義:
- 知識(shí)圖譜本身是一個(gè)具有屬性的實(shí)體通過關(guān)系鏈接而成的網(wǎng)狀知識(shí)庫(kù),從圖的角度來看,知識(shí)圖譜本質(zhì)上是一種概念網(wǎng)絡(luò),其中的節(jié)點(diǎn)表示物理世界中的實(shí)體(或概念),而實(shí)體之間的各種語(yǔ)義關(guān)系則構(gòu)成網(wǎng)絡(luò)中的邊。由此,知識(shí)圖譜是對(duì)物理世界的一種符號(hào)表達(dá)。
- 知識(shí)圖譜的研究?jī)r(jià)值在于,它是構(gòu)建在當(dāng)前Web基礎(chǔ)上的一層覆蓋網(wǎng)絡(luò)(overlay network),借助知識(shí)圖譜,能夠在Web網(wǎng)頁(yè)之上建立概念間的鏈接關(guān)系,從而以最小的代價(jià)將互聯(lián)網(wǎng)中積累的信息組織起來,成為可以被利用的知識(shí)。
- 知識(shí)圖譜的應(yīng)用價(jià)值在于,它能夠改變現(xiàn)有的信息檢索方式,一方面通過推理實(shí)現(xiàn)概念檢索(相對(duì)于現(xiàn)有的字符串模糊匹配方式而言);另一方面以圖形化方式向用戶展示經(jīng)過分類整理的結(jié)構(gòu)化知識(shí),從而使人們從人工過濾網(wǎng)頁(yè)尋找答案的模式中解脫出來。
知識(shí)圖譜的架構(gòu)
知識(shí)圖譜的架構(gòu),包括知識(shí)圖譜自身的邏輯結(jié)構(gòu)以及構(gòu)建知識(shí)圖譜所采用的技術(shù)(體系)結(jié)構(gòu)。
知識(shí)圖譜的邏輯結(jié)構(gòu)分為兩個(gè)層次:數(shù)據(jù)層和模式層。
在知識(shí)圖譜的數(shù)據(jù)層,知識(shí)以事實(shí)(fact)為單位存儲(chǔ)在圖數(shù)據(jù)庫(kù)。如果以『實(shí)體-關(guān)系-實(shí)體』或者『實(shí)體-屬性-值』三元組作為事實(shí)的基本表達(dá)方式,則存儲(chǔ)在圖數(shù)據(jù)庫(kù)中的所有數(shù)據(jù)將構(gòu)成龐大的實(shí)體關(guān)系網(wǎng)絡(luò),形成知識(shí)的圖譜。
模式層在數(shù)據(jù)層之上,是知識(shí)圖譜的核心,在模式層存儲(chǔ)的是經(jīng)過提煉的知識(shí),通常采用本體庫(kù)來管理知識(shí)圖譜的模式層,借助本體庫(kù)對(duì)公理、規(guī)則和約束條件的支持能力來規(guī)范實(shí)體、關(guān)系以及實(shí)體的類型和屬性等對(duì)象之間的聯(lián)系。本體庫(kù)在知識(shí)圖譜中的地位相當(dāng)于知識(shí)庫(kù)的模具,擁有本體庫(kù)的知識(shí)庫(kù)冗余知識(shí)較少。
接下來是知識(shí)圖譜的技術(shù)架構(gòu):
知識(shí)圖譜的構(gòu)建過程是從原始數(shù)據(jù)出發(fā),采用一系列自動(dòng)或半自動(dòng)的技術(shù)手段,從原始數(shù)據(jù)中提取出知識(shí)要素(即事實(shí)),并將其存入知識(shí)庫(kù)的數(shù)據(jù)層和模式層的過程。這是一個(gè)迭代更新的過程,根據(jù)知識(shí)獲取的邏輯,每一輪迭代包含三個(gè)階段:信息抽取、知識(shí)融合以及知識(shí)加工。
知識(shí)圖譜有自頂向下和自底向上2種構(gòu)建方式。所謂自頂向下構(gòu)建是借助百科類網(wǎng)站等結(jié)構(gòu)化數(shù)據(jù)源,從高質(zhì)量數(shù)據(jù)中提取本體和模式信息,加入到知識(shí)庫(kù)中;所謂自底向上構(gòu)建,則是借助一定的技術(shù)手段,從公開采集的數(shù)據(jù)中提取出資源模式,選擇其中置信度較高的新模式,經(jīng)人工審核之后,加入到知識(shí)庫(kù)中。
目前知識(shí)圖譜大多采用自底向上的方式構(gòu)建,本文也主要介紹自底向上的知識(shí)圖譜構(gòu)建技術(shù),按照知識(shí)獲取的過程分為3個(gè)層次:信息抽取、知識(shí)融合以及知識(shí)加工。
知識(shí)圖譜的構(gòu)建技術(shù)
采用自底向上的方式構(gòu)建知識(shí)圖譜的過程是一個(gè)迭代更新的過程,每一輪更新包括3個(gè)步驟:
- 信息抽取,即從各種類型的數(shù)據(jù)源中提取出實(shí)體(概念)、屬性以及實(shí)體撿的相互關(guān)系,在此基礎(chǔ)上形成本體化的知識(shí)表達(dá)
- 知識(shí)融合,在獲得新知識(shí)后,需要對(duì)其進(jìn)行整合,以消除矛盾和歧義,比如某些實(shí)體可能有多種表達(dá),某個(gè)特定稱謂也許對(duì)應(yīng)于多個(gè)不同的實(shí)體等
- 知識(shí)加工,對(duì)于經(jīng)過融合的新知識(shí),需要經(jīng)過質(zhì)量評(píng)估之后(部分需要人工參與甄別),才能將合格的部分加入到知識(shí)庫(kù)中,以確保知識(shí)庫(kù)的質(zhì)量,新增數(shù)據(jù)之后,可以進(jìn)行知識(shí)推理、拓展現(xiàn)有知識(shí)、得到新知識(shí)。
信息抽取
信息抽取是知識(shí)圖譜構(gòu)建的第一步,其中的關(guān)鍵問題是如何從異構(gòu)數(shù)據(jù)源中自動(dòng)抽取信息得到候選知識(shí)單元。信息抽取是一種自動(dòng)化地從半結(jié)構(gòu)化和無(wú)結(jié)構(gòu)數(shù)據(jù)中抽取實(shí)體、關(guān)系以及實(shí)體屬性等結(jié)構(gòu)化信息的技術(shù)。涉及的關(guān)鍵技術(shù)包括:命名實(shí)體識(shí)別、關(guān)系抽取和屬性抽取。
命名實(shí)體識(shí)別(實(shí)體抽取)
命名實(shí)體識(shí)別(named entity recognition,NER)也稱實(shí)體抽取,是指從文本數(shù)據(jù)集中自動(dòng)識(shí)別出命名實(shí)體。實(shí)體抽取的質(zhì)量(準(zhǔn)確率和召回率)對(duì)后續(xù)的知識(shí)獲取效率和質(zhì)量影響極大,因此是信息抽取中最為基礎(chǔ)和關(guān)鍵的部分。
2012年Ling等人歸納出112種實(shí)體類別,并基于條件隨機(jī)場(chǎng)CRF進(jìn)行實(shí)體邊界識(shí)別,最后采用自適應(yīng)感知機(jī)算法實(shí)現(xiàn)了對(duì)實(shí)體的自動(dòng)分類,取得了不錯(cuò)的效果。
但是隨著互聯(lián)網(wǎng)中內(nèi)容的動(dòng)態(tài)變化,采用人工預(yù)定義實(shí)體分類體系的方式已經(jīng)很難適應(yīng)時(shí)代的需求,因此提出了面向開放域的實(shí)體識(shí)別和分類研究。
在面向開放域的實(shí)體識(shí)別和分類研究中,不需要(也不可能)為每個(gè)領(lǐng)域或者每個(gè)實(shí)體類別建立單獨(dú)的語(yǔ)料庫(kù)作為訓(xùn)練集。因此,該領(lǐng)域面臨的主要挑戰(zhàn)是如何從給定的少量實(shí)體實(shí)例中自動(dòng)發(fā)現(xiàn)具有區(qū)分力的模型。
一種思路是根據(jù)已知的實(shí)體實(shí)例進(jìn)行特征建模,利用該模型處理海量數(shù)據(jù)集得到新的命名實(shí)體列表,然后針對(duì)新實(shí)體建模,迭代地生成實(shí)體標(biāo)注語(yǔ)料庫(kù)。
另一種思路是利用搜索引擎的服務(wù)器日志,事先并不給出實(shí)體分類等信息,而是基于實(shí)體的語(yǔ)義特征從搜索日志中識(shí)別出命名實(shí)體,然后采用聚類算法對(duì)識(shí)別出的實(shí)體對(duì)象進(jìn)行聚類。
關(guān)系抽取
文本語(yǔ)料經(jīng)過實(shí)體抽取,得到的是一系列離散的命名實(shí)體,為了得到語(yǔ)義信息,還需要從相關(guān)的語(yǔ)料中提取出實(shí)體之間的關(guān)聯(lián)關(guān)系,通過關(guān)聯(lián)關(guān)系將實(shí)體(概念)聯(lián)系起來,才能夠形成網(wǎng)狀的知識(shí)結(jié)構(gòu),研究關(guān)系抽取技術(shù)的目的,就是解決如何從文本語(yǔ)料中抽取實(shí)體間的關(guān)系這一基本問題。
早期的關(guān)系抽取研究方法主要是通過人工構(gòu)造語(yǔ)法和語(yǔ)義規(guī)則。隨后,出現(xiàn)了大量基于特征向量或者核函數(shù)的有監(jiān)督學(xué)習(xí)方法,關(guān)系抽取的準(zhǔn)確性也不斷提高。但以上研究成果的共同特點(diǎn)是需要預(yù)先定義實(shí)體關(guān)系類型,如雇傭關(guān)系、整體部分關(guān)系以及位置關(guān)系等。
與之相對(duì)的,Banko等人提出了面向開放域的信息抽取方法框架(open information extraction,OIE),并發(fā)布了基于自監(jiān)督(self-supervised)學(xué)習(xí)方式的開放信息抽取原型系統(tǒng)(TextRunner),該系統(tǒng)采用少量人工標(biāo)記數(shù)據(jù)作為訓(xùn)練集,據(jù)此得到一個(gè)實(shí)體關(guān)系分類模型,再依據(jù)該模型對(duì)開放數(shù)據(jù)進(jìn)行分類,依據(jù)分類結(jié)果訓(xùn)練樸素貝葉斯模型來識(shí)別『實(shí)體-關(guān)系-實(shí)體』三元組,經(jīng)過大規(guī)模真實(shí)數(shù)據(jù)測(cè)試,取得了顯著優(yōu)于同時(shí)期其他方法的結(jié)果。
TextRunner系統(tǒng)中錯(cuò)誤的部分主要是一些無(wú)意義或者不和邏輯的實(shí)體關(guān)系三元組,據(jù)此引入語(yǔ)法限制條件和字典約束,采用先識(shí)別關(guān)系指示詞,然后再對(duì)實(shí)體進(jìn)行識(shí)別的策略,有效提高了關(guān)系識(shí)別準(zhǔn)確率。
屬性抽取
屬性抽取的目標(biāo)是從不同信息源中采集特定實(shí)體的屬性信息。例如針對(duì)某個(gè)公眾人物,可以從網(wǎng)絡(luò)公開信息中得到其昵稱、生日、國(guó)籍、教育背景等信息。屬性抽取技術(shù)能夠從多種數(shù)據(jù)來源中匯集這些信息,實(shí)現(xiàn)對(duì)實(shí)體屬性的完整勾畫。
由于可以將實(shí)體的屬性視為實(shí)體與屬性值之間的一種名詞性關(guān)系,因此也可以將屬性抽取問題視為關(guān)系抽取問題。
百科類網(wǎng)站提供的半結(jié)構(gòu)化數(shù)據(jù)是當(dāng)前實(shí)體屬性抽取研究的主要數(shù)據(jù)來源。但是還有大量的實(shí)體屬性數(shù)據(jù)隱藏在非結(jié)構(gòu)化的公開數(shù)據(jù)中。
一種解決方案是基于百科類網(wǎng)站的半結(jié)構(gòu)化數(shù)據(jù),通過自動(dòng)抽取生成訓(xùn)練語(yǔ)料,用于訓(xùn)練實(shí)體屬性標(biāo)注模型,然后將其應(yīng)用于對(duì)非結(jié)構(gòu)化數(shù)據(jù)的實(shí)體屬性抽取;
另一種方案是采用數(shù)據(jù)挖掘的方法直接從文本中挖掘?qū)嶓w屬性與屬性值之間的關(guān)系模式,據(jù)此實(shí)現(xiàn)對(duì)屬性名和屬性值在文本中的定位。這種方法的基本假設(shè)是屬性名和屬性值之間在位置上有關(guān)聯(lián)關(guān)系,事實(shí)上在真實(shí)語(yǔ)言環(huán)境中,許多實(shí)體屬性值附近都存在一些用于限制和界定該屬性值含義的關(guān)鍵詞(屬性名),在自然語(yǔ)言處理技術(shù)中將這類屬性稱為有名屬性,因此可以利用這些關(guān)鍵字來定位有名屬性的屬性值。
知識(shí)融合
通過信息抽取,實(shí)現(xiàn)了從非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)中獲取實(shí)體、關(guān)系以及實(shí)體屬性信息的目標(biāo),然而,這些結(jié)果中可能包含大量的冗余和錯(cuò)誤信息,數(shù)據(jù)之間的關(guān)系也是扁平化的,缺乏層次性和邏輯性,因此有必要對(duì)其進(jìn)行清理和整合。
知識(shí)融合包含2部分內(nèi)容:實(shí)體鏈接和知識(shí)合并。
實(shí)體鏈接
實(shí)體鏈接(entity linking)是指對(duì)于從文本中抽取得到的實(shí)體對(duì)象,將其鏈接到知識(shí)庫(kù)中對(duì)應(yīng)的正確實(shí)體對(duì)象的操作。
實(shí)體鏈接的基本思想是首先根據(jù)給定的實(shí)體指稱項(xiàng),從知識(shí)庫(kù)中選出一組候選實(shí)體對(duì)象,然后通過相似度計(jì)算將指稱項(xiàng)鏈接到正確的實(shí)體對(duì)象。
實(shí)體鏈接的一般流程是:
- 從文本中通過實(shí)體抽取得到實(shí)體指稱項(xiàng)
- 進(jìn)行實(shí)體消歧和共指消解,判斷知識(shí)庫(kù)中的同名實(shí)體與之是否代表不同的含義,以及知識(shí)庫(kù)中是否存在其他命名實(shí)體與之表示相同的含義
- 在確認(rèn)知識(shí)庫(kù)中對(duì)應(yīng)正確實(shí)體對(duì)象之后,將該實(shí)體指稱鏈接到知識(shí)庫(kù)中對(duì)應(yīng)實(shí)體。
實(shí)體消歧是專門用于解決同名實(shí)體產(chǎn)生歧義問題的技術(shù),通過實(shí)體消歧,就可以根據(jù)當(dāng)前的語(yǔ)境,準(zhǔn)確建立實(shí)體鏈接,實(shí)體消歧主要采用聚類法。其實(shí)也可以看做基于上下文的分類問題,類似于詞性消歧和詞義消歧。
共指消解技術(shù)主要用于解決多個(gè)指稱對(duì)應(yīng)同一實(shí)體對(duì)象的問題。在一次會(huì)話中,多個(gè)指稱可能指向的是同一實(shí)體對(duì)象。利用共指消解技術(shù),可以將這些指稱項(xiàng)關(guān)聯(lián)(合并)到正確的實(shí)體對(duì)象,由于該問題在信息檢索和自然語(yǔ)言處理等領(lǐng)域具有特殊的重要性,吸引了大量的研究努力。共指消解還有一些其他的名字,比如對(duì)象對(duì)齊、實(shí)體匹配和實(shí)體同義。
共指消解問題的早期研究成果主要來自自然語(yǔ)言處理領(lǐng)域,近年來統(tǒng)計(jì)機(jī)器學(xué)習(xí)領(lǐng)域的學(xué)者越來越多的參與到這項(xiàng)工作中。
基于自然語(yǔ)言處理的共指消解是以句法分析為基礎(chǔ)的,代表方法是Hobbs算法和向心理論(centering theory)。Hobbs算法是最早的代詞消解算法之一,主要思路是基于句法分析樹進(jìn)行搜索,因此適用于實(shí)體與代詞出現(xiàn)在同一句子中的場(chǎng)景,有一定的局限性。
向心理論的基本思想是:將表達(dá)模式(utterance)視為語(yǔ)篇(discourse)的基本組成單元,通過識(shí)別表達(dá)式中的實(shí)體,可以獲得當(dāng)前和后續(xù)語(yǔ)篇中的關(guān)注中心(實(shí)體),根據(jù)語(yǔ)義的局部連貫性和顯著性,就可以在語(yǔ)篇中跟蹤受關(guān)注的實(shí)體。
隨著統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法被引入該領(lǐng)域,共指消解技術(shù)進(jìn)入了快速發(fā)展階段,McCarthy等人首次將C4.5決策樹算法也被應(yīng)用于解決共指消解問題。
除了將共指消解問題視為分類問題之外,還可以將其作為聚類問題來求解。聚類法的基本思想是以實(shí)體指稱項(xiàng)為中心,通過實(shí)體聚類實(shí)現(xiàn)指稱項(xiàng)與實(shí)體對(duì)象的匹配。其關(guān)鍵問題是如何定義實(shí)體間的相似性測(cè)度。Turney基于點(diǎn)互信息來求解實(shí)體所在文檔的相似度,能夠有效的實(shí)現(xiàn)共指消解。
基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的共指消解方法通常受限于2個(gè)問題:訓(xùn)練數(shù)據(jù)的(特征)稀疏性和難以在不同的概念上下文中建立實(shí)體關(guān)聯(lián)。為解決該問題,Pantel等人基于Harris提出的分布相似性模型,提出了一個(gè)新的實(shí)體相似性測(cè)度模型,稱為術(shù)語(yǔ)相似度(term similarity),借助該模型可以從全局語(yǔ)料中得到所有術(shù)語(yǔ)間的統(tǒng)計(jì)意義上的相似性,據(jù)此可以完成實(shí)體合并,達(dá)到共指消解的目的。
知識(shí)合并
在構(gòu)建知識(shí)圖譜時(shí),可以從第三方知識(shí)庫(kù)產(chǎn)品或已有結(jié)構(gòu)化數(shù)據(jù)獲取知識(shí)輸入。
常見的知識(shí)合并需求有兩個(gè),一個(gè)是合并外部知識(shí)庫(kù),另一個(gè)是合并關(guān)系數(shù)據(jù)庫(kù)。
將外部知識(shí)庫(kù)融合到本地知識(shí)庫(kù)需要處理兩個(gè)層面的問題:
- 數(shù)據(jù)層的融合,包括實(shí)體的指稱、屬性、關(guān)系以及所屬類別等,主要的問題是如何避免實(shí)例以及關(guān)系的沖突問題,造成不必要的冗余
- 通過模式層的融合,將新得到的本體融入已有的本體庫(kù)中
然后是合并關(guān)系數(shù)據(jù)庫(kù),在知識(shí)圖譜構(gòu)建過程中,一個(gè)重要的高質(zhì)量知識(shí)來源是企業(yè)或者機(jī)構(gòu)自己的關(guān)系數(shù)據(jù)庫(kù)。為了將這些結(jié)構(gòu)化的歷史數(shù)據(jù)融入到知識(shí)圖譜中,可以采用資源描述框架(RDF)作為數(shù)據(jù)模型。業(yè)界和學(xué)術(shù)界將這一數(shù)據(jù)轉(zhuǎn)換過程形象地稱為RDB2RDF,其實(shí)質(zhì)就是將關(guān)系數(shù)據(jù)庫(kù)的數(shù)據(jù)換成RDF的三元組數(shù)據(jù)。
知識(shí)加工
通過信息抽取,可以從原始語(yǔ)料中提取出實(shí)體、關(guān)系與屬性等知識(shí)要素,再經(jīng)過知識(shí)融合,可以消除實(shí)體指稱項(xiàng)與實(shí)體對(duì)象之間的歧義,得到一系列基本的事實(shí)表達(dá)。然而事實(shí)本身并不等于知識(shí),要想最終獲得結(jié)構(gòu)化,網(wǎng)絡(luò)化的知識(shí)體系,還需要經(jīng)歷知識(shí)加工的過程。知識(shí)加工主要包括3方面內(nèi)容:本體構(gòu)建、知識(shí)推理和質(zhì)量評(píng)估。
本體構(gòu)建
本體(ontology)是對(duì)概念進(jìn)行建模的規(guī)范,是描述客觀世界的抽象模型,以形式化的方式對(duì)概念及其之間的聯(lián)系給出明確定義。本體最大的特點(diǎn)在于它是共享的,本體反映的知識(shí)是一種明確定義的共識(shí)。
本體是同一領(lǐng)域內(nèi)的不同主體之間進(jìn)行交流的語(yǔ)義基礎(chǔ)。本體是樹狀結(jié)構(gòu),相鄰層次的節(jié)點(diǎn)(概念)之間有嚴(yán)格的『IsA』關(guān)系。在知識(shí)圖譜中,本體位于模式層,用于描述概念層次體系,是知識(shí)庫(kù)中知識(shí)的概念模板。
本體可以采用人工編輯的方式手動(dòng)構(gòu)建(借助本體編輯軟件),也可以以數(shù)據(jù)驅(qū)動(dòng)的自動(dòng)化方式構(gòu)建本體,其包含3個(gè)階段:實(shí)體并列關(guān)系相似度計(jì)算、實(shí)體上下位關(guān)系抽取以及本體的生成。
實(shí)體并列關(guān)系相似度適用于考察任意給定的兩個(gè)實(shí)體在多大程度上屬于同一概念分類的指標(biāo)測(cè)度,相似度越高,表明這2個(gè)實(shí)體越有可能屬于同一語(yǔ)義類別。所謂并列關(guān)系,是相對(duì)于縱向的概念隸屬關(guān)系而言的。
實(shí)體上下位關(guān)系抽取是用于確定概念之間的隸屬(IsA)關(guān)系,這種關(guān)系也稱為上下位關(guān)系。
本體生成階段的主要任務(wù)是對(duì)各層次得到的概念進(jìn)行聚類,并對(duì)其進(jìn)行語(yǔ)義類的標(biāo)定(為該類的中的實(shí)體指定1個(gè)或多個(gè)公共上位詞)。
當(dāng)前主流的實(shí)體并列關(guān)系相似度計(jì)算方法有兩種:模式匹配法和分布相似度。其中,模式匹配法采用預(yù)先定義實(shí)體對(duì)模式的方法,通過模式匹配取得給定關(guān)鍵字組合在同一語(yǔ)料單位中共同出現(xiàn)的頻率,據(jù)此計(jì)算實(shí)體對(duì)之間的相似度。分布相似度方法的前提假設(shè)是:在相似的上下文管徑中頻繁出現(xiàn)的實(shí)體之間具有語(yǔ)義上的相似性。
實(shí)體上下位關(guān)系抽取是該領(lǐng)域的研究重點(diǎn),主要的研究方法是基于語(yǔ)法模式(如Hearst模式)抽取IsA實(shí)體對(duì)。也有方法利用概率模型判定IsA關(guān)系和區(qū)分上下位詞,通常會(huì)借助百科類網(wǎng)站提供的概念分類知識(shí)來幫助訓(xùn)練模型,以提高算法精度。
知識(shí)推理
知識(shí)推理是指從知識(shí)庫(kù)中已有的實(shí)體關(guān)系數(shù)據(jù)出發(fā),進(jìn)行計(jì)算機(jī)推理,建立實(shí)體間的新關(guān)聯(lián),從而拓展和豐富知識(shí)網(wǎng)絡(luò)。知識(shí)推理是知識(shí)圖譜構(gòu)建的重要手段和關(guān)鍵環(huán)節(jié),通過知識(shí)推理,能夠從現(xiàn)有知識(shí)中發(fā)現(xiàn)新的知識(shí)。
知識(shí)推理的對(duì)象也并不局限于實(shí)體間的關(guān)系,也可以是實(shí)體的屬性值,本體的概念層次關(guān)系等。
知識(shí)的推理方法可以分為2大類:基于邏輯的推理和基于圖的推理。
基于邏輯的推理主要包括一階邏輯謂詞、描述邏輯以及基于規(guī)則的推理。
一階謂詞邏輯建立在命題的基礎(chǔ)上,在一階謂詞邏輯中,命題被分解為個(gè)體(individuals)和謂詞(predication)2部分。個(gè)體是指可獨(dú)立存在的客體,可以是一個(gè)具體的事物,也可以是一個(gè)抽象的概念。謂詞是用來刻畫個(gè)體性質(zhì)及事物關(guān)系的詞。比如(A,friend,B)就是表達(dá)個(gè)體A和B關(guān)系的謂詞。
對(duì)于復(fù)雜的實(shí)體關(guān)系,可以采用描述邏輯進(jìn)行推理。描述邏輯(description logic)是一種基于對(duì)象的知識(shí)表示的形式化工具,是一階謂詞邏輯的子集,它是本體語(yǔ)言推理的重要設(shè)計(jì)基礎(chǔ)。
基于規(guī)則的推理可以利用專門的規(guī)則語(yǔ)言,如SWRL(semantic Web rule language)。
基于圖的推理方法主要基于神經(jīng)網(wǎng)絡(luò)模型或Path Ranking算法。Path Ranking算法的基本思想是將知識(shí)圖譜視為圖(以實(shí)體為節(jié)點(diǎn),以關(guān)系或?qū)傩詾檫叄瑥脑垂?jié)點(diǎn)開始,在圖上執(zhí)行隨機(jī)游走,如果能夠通過一個(gè)路徑到達(dá)目標(biāo)節(jié)點(diǎn),則推測(cè)源和目的節(jié)點(diǎn)可能存在關(guān)系。
質(zhì)量評(píng)估
質(zhì)量評(píng)估也是知識(shí)庫(kù)構(gòu)建技術(shù)的重要組成部分。其意義在于:可以對(duì)知識(shí)的可信度進(jìn)行量化,通過舍棄置信度較低的知識(shí),可以保障知識(shí)庫(kù)的質(zhì)量。
知識(shí)圖譜的應(yīng)用
通過知識(shí)圖譜,不僅可以將互聯(lián)網(wǎng)的信息表達(dá)成更接近人類認(rèn)知世界的形式,而且提供了一種更好的組織、管理和利用海量信息的方式。目前的知識(shí)圖譜技術(shù)主要用于智能語(yǔ)義搜索、移動(dòng)個(gè)人助理(Siri)以及深度問答系統(tǒng)(Watson),支撐這些應(yīng)用的核心技術(shù)正是知識(shí)圖譜技術(shù)。
在智能語(yǔ)義搜索中,當(dāng)用戶發(fā)起查詢時(shí),搜索引擎會(huì)借助知識(shí)圖譜的幫助對(duì)用戶查詢的關(guān)鍵詞進(jìn)行解析和推理,進(jìn)而將其映射到知識(shí)圖譜中的一個(gè)或一組概念之上,然后根據(jù)知識(shí)圖譜的概念層次結(jié)構(gòu),向用戶返回圖形化的知識(shí)結(jié)構(gòu),這就是我們?cè)诠雀韬桶俣鹊乃阉鹘Y(jié)果中看到的知識(shí)卡片。
在深度問答應(yīng)用中,系統(tǒng)同樣會(huì)首先在知識(shí)圖譜的幫助下對(duì)用戶使用自然語(yǔ)言提出的問題進(jìn)行語(yǔ)義分析和語(yǔ)法分析,進(jìn)而將其轉(zhuǎn)化成結(jié)構(gòu)化形式的查詢語(yǔ)句,然后在知識(shí)圖譜中查詢答案。比如,如果用戶提問:『如何判斷是否感染了埃博拉病毒?』,則該查詢有可能被等價(jià)變換為『埃博拉病毒的癥狀有哪些?』,然后再進(jìn)行推理變換,最終形成等價(jià)的三元組查詢語(yǔ)句,如(埃博拉,癥狀,?)和(埃博拉,征兆,?)等。如果由于知識(shí)庫(kù)不完善而無(wú)法通過推理解答用戶的問題,深度問答系統(tǒng)還可以利用搜索引擎向用戶反饋搜索結(jié)果,同時(shí)根據(jù)搜索結(jié)果更新知識(shí)庫(kù),從而為回答后續(xù)的提問提前做出準(zhǔn)備。