知識圖譜
知識圖譜
導(dǎo)論
- 以結(jié)構(gòu)化的形式描述客觀世界中的概念、實體間的復(fù)雜關(guān)系
- 將互聯(lián)網(wǎng)的信息表達(dá)成更接近人類認(rèn)知世界的形式
- 為人類提供了一種更好地組織、管理和理解互聯(lián)網(wǎng)海量信息的能力
- 采用本體知識表示方法
- 是語義Web技術(shù)在互聯(lián)網(wǎng)上的成功應(yīng)用
最初由谷歌與2012年提出
目的是利用網(wǎng)絡(luò)多源數(shù)據(jù)構(gòu)建的知識庫來增強(qiáng)語義搜索、提升搜索質(zhì)量
旨在以結(jié)構(gòu)化的形式描述客觀世界中存在的概念、實體及其間的復(fù)雜關(guān)系
- 概念是指人們在認(rèn)識世界過程中形成的對客觀事物的概念化表示
- 實體是客觀世界中的具體事物
- 關(guān)系描述概念、實體之間客觀存在的關(guān)聯(lián)
知識卡片
知識圖譜在搜索中的展現(xiàn)形式
傳統(tǒng)搜索把包含關(guān)鍵詞的頁面作為關(guān)鍵結(jié)果返回給用戶
知識卡片旨在為用戶提供更多與搜索內(nèi)容相關(guān)的信息
-
為用戶查詢或返回答案中所包含的概念或?qū)嶓w提供詳細(xì)的結(jié)構(gòu)化摘要,實現(xiàn)對搜索效果的三個方面提升
- 找到最想要的消息
- 提供最全面的摘要
- 讓搜索更有深度和廣度
可以展示實體間關(guān)系的信息
與Gruber在1993年提出的本體知識表示概念一致,可以看做是本體知識表示在互聯(lián)網(wǎng)大數(shù)據(jù)時代的知識表示的一個實際應(yīng)用
本體知識表示
本體的定義
源于哲學(xué)領(lǐng)域,一直存在不同的用法
-
本體論
-
研究“存在”的科學(xué)
- 試圖解釋存在時什么
- 試圖解釋世間所有存在的共同特征是什么
-
基本元素
- 概念及概念間的關(guān)聯(lián)
-
計算機(jī)領(lǐng)域本地指一種“形式化的、對于共享概念體系的明確且詳細(xì)的說明”
顯式的定義了領(lǐng)域中的概念、關(guān)系和公里及其之間的關(guān)系
本體的特性
-
概念化
- 對客觀世界中存在事物或現(xiàn)象以及他們之間關(guān)系的概念化抽象
-
精確性
- 本題中的概念、關(guān)系以及各種約束被精確地定義
-
形式化
- 為了方便人機(jī)交互和計算機(jī)推理,因此其定義是形式化且及其可理解和推理計算的
-
共享性
- 表示要建立在領(lǐng)域內(nèi)的共同認(rèn)知基礎(chǔ)上,可以有效促進(jìn)知識共享
本體的組成
-
概念(concept)
- 也稱類
- 是某一領(lǐng)域內(nèi)相同性質(zhì)對象集合的抽象表示形式
-
實例(instance)
- 概念中的特定元素
- 往往對應(yīng)客觀世界的具體事物
-
關(guān)系(relation)
- 也稱屬性
- 是指概念與概念或概念與實例間的關(guān)系類型
- 關(guān)系(屬性)的興義能夠更好地刻畫概念的屬性
- 關(guān)系可以關(guān)聯(lián)實例
- 關(guān)系還可以關(guān)聯(lián)具體的字符串或者數(shù)值
-
公理(axiom)
- 描述領(lǐng)域內(nèi)總是成立(為真)的陳述
- 是對所定義領(lǐng)域規(guī)則的描述
萬維網(wǎng)知識表示
以為本和超鏈接描述信息,為人民提供一個知識開放共享的平臺
正在進(jìn)行僅包含網(wǎng)頁和網(wǎng)頁間超鏈接的文檔向包含實體和實體之間豐富關(guān)系的數(shù)據(jù)萬維網(wǎng)的轉(zhuǎn)變
語義萬維網(wǎng)
-
與萬維網(wǎng)的區(qū)別
- 萬維網(wǎng)是關(guān)于網(wǎng)頁鏈接的圖結(jié)構(gòu),節(jié)點是網(wǎng)頁,網(wǎng)頁內(nèi)容是動態(tài)的、面向人理解的內(nèi)容
- 語義Web中,網(wǎng)絡(luò)結(jié)構(gòu)是萬維網(wǎng)上內(nèi)容的結(jié)構(gòu)化表示,不僅人可以理解,可以同步發(fā)布及其可以處理和理解的內(nèi)容,通過規(guī)范和鏈接實現(xiàn)數(shù)據(jù)集成
-
超文本
- 用超鏈接的方法講各種不同空間的文字信息組織在一起的網(wǎng)狀文本
- 設(shè)計思想史面向用戶,需要人理解網(wǎng)頁內(nèi)容,機(jī)器只負(fù)責(zé)解析和展示,不能理解和推理網(wǎng)頁內(nèi)容
- 網(wǎng)絡(luò)上的語義內(nèi)容可以很容易地被人獲取,但無法被計算機(jī)理解和計算
-
萬維網(wǎng)協(xié)議
- 用戶通過超鏈接瀏覽互聯(lián)網(wǎng)上的各類資源
- 也可以通過互聯(lián)網(wǎng)講自己的信息發(fā)布出去
-
愿景
- 信息內(nèi)容具有良好的語義定義
- 計算機(jī)可以理解并自動存取語義,進(jìn)行推理、完成特定任務(wù)的智能服務(wù)
- 計算機(jī)和人能夠更好的協(xié)同工作
-
語義萬維網(wǎng)的實現(xiàn)
- 需要將當(dāng)前面向人理解的互聯(lián)網(wǎng)內(nèi)容編程面向機(jī)器的具有語義的內(nèi)容
- 需要萬維網(wǎng)內(nèi)容的知識表示手段
- 在語義Web下有很多完成特定任務(wù)的智能代理,可以存取互聯(lián)網(wǎng)知識并且與其他智能代理進(jìn)行交互
- 本體定義了互聯(lián)網(wǎng)上知識表示的方法
- 互聯(lián)網(wǎng)內(nèi)容是嵌入以本體描述的計算機(jī)可以理解和推理的結(jié)構(gòu)化內(nèi)容
- 個人助理之間通過本體定義的語義進(jìn)行交互
互聯(lián)網(wǎng)的語義信息是分布式定義并且連接的
萬維網(wǎng)知識描述語言
-
可擴(kuò)展標(biāo)記語言XML
一種使用標(biāo)簽來組織互聯(lián)網(wǎng)信息內(nèi)容的標(biāo)記語言
-
由三個基本概念組成
-
標(biāo)簽
- 用于標(biāo)識一段數(shù)據(jù)
-
元素
- 被標(biāo)簽包圍的數(shù)據(jù)
-
屬性
- 元素可以具有屬性,屬性用來為元素提供額外的信息
-
-
本質(zhì)上是個樹形結(jié)構(gòu)
每個XML文檔有且僅有一個頂級標(biāo)簽
每個元素必須包含一個開始標(biāo)簽和一個結(jié)束標(biāo)簽
標(biāo)簽不能較差,必須被正確的嵌套
元素可以包含屬性,但是屬性名不能重復(fù)使用
-
標(biāo)簽和屬性的名字必須被允許
- 特定領(lǐng)域只能使用特定的標(biāo)簽和屬性
-
資源描述框架RDF與鏈接數(shù)據(jù)
-
與XML的區(qū)別
XML沒有對每個標(biāo)簽意義的準(zhǔn)確描述
同一語義可以用多種不同結(jié)構(gòu)的XML進(jìn)行表叔
-
在沒有額外信息的情況下
- 機(jī)器無法理解每個標(biāo)簽的準(zhǔn)確含義
- 無法理解各個標(biāo)簽之間的關(guān)系
- 無法進(jìn)行知識的推理
-
實現(xiàn)語義網(wǎng)的三個功能
- 保證了語義網(wǎng)的內(nèi)容有準(zhǔn)確含義
- 保證了語義網(wǎng)的內(nèi)容可以被計算機(jī)理解并處理
- 可以通過各種網(wǎng)頁中的內(nèi)容集成幫助進(jìn)行自動數(shù)據(jù)處理
-
RDF的重要概念
-
資源
- 存在全球統(tǒng)一資源標(biāo)識符的事務(wù)
- 它是互聯(lián)網(wǎng)正在討論或者指向的任何事物
- RDF中的各種定義本身也是資源
- 可以對應(yīng)知識圖譜表示中的概念、實體和關(guān)系
-
屬性
- 一種特殊的資源,它描述了資源之間的關(guān)系
-
陳述
- 一個由主語、謂語、賓語構(gòu)成的三元組
- 主語、謂語、賓語都是資源
- 主語是資源,謂語和賓語分別表示其屬性和屬性值
-
如果將RDF的一個三元組中的主語和賓語表示成節(jié)點,講之間的關(guān)系表達(dá)成一條從主語到賓語的有向邊,則所有RDF三元組就將互聯(lián)網(wǎng)的知識結(jié)構(gòu)轉(zhuǎn)化為圖結(jié)構(gòu)
RDF Schema是用來定義RDF中的類和屬性語義的描述性語言
鏈接數(shù)據(jù)提出的目的是將網(wǎng)絡(luò)上眾多的數(shù)據(jù)鏈接起來,構(gòu)建一個計算機(jī)能夠理解的語義網(wǎng)絡(luò)
-
鏈接數(shù)據(jù)構(gòu)建的四個基本原則
- 與RDF一樣,使用URI來標(biāo)識每個事物(資源)
- 使用HTTP URI。便于用戶可以像訪問網(wǎng)頁一樣直接查看事物,真正實現(xiàn)互聯(lián)
- 當(dāng)用戶查看一個URI時,可以使用RDF等標(biāo)準(zhǔn)提供有用的信息
- 為事物添加與其他事物的URI連接,建立數(shù)據(jù)關(guān)聯(lián)
-
鏈接數(shù)據(jù)的意義
- 打破了各種格式信息之間的隔離
- 打破了不同信息來源之間的隔閡
- 由于標(biāo)準(zhǔn)統(tǒng)一,鏈接數(shù)據(jù)使數(shù)據(jù)集成和瀏覽復(fù)雜數(shù)據(jù)變得容易
- 可以比較容易的更新和擴(kuò)展模型
- 遵循全球統(tǒng)一的鏈接原則也會提升數(shù)據(jù)的質(zhì)量,使數(shù)據(jù)的運用和傳遞更加方便
-
-
網(wǎng)絡(luò)本體語言O(shè)WL
進(jìn)一步增強(qiáng)了RDF的語義表達(dá)能力,是W3C標(biāo)準(zhǔn)定義的基于描述邏輯的本體語言
其構(gòu)造函數(shù)/公里是受限的,因此在OWL中的推理是可判斷的
主要體現(xiàn)在對屬性和類的予以描述兩方面
-
屬性刻畫方面
- 使用定義域和值域來表示該屬性使用的類和取值范圍,將屬性與類關(guān)聯(lián)
- 可以通過子屬性來具體化一個屬性
-
OWL的特征
- 對稱性
- 傳遞性
- 函數(shù)性
- 可逆性
- 反函數(shù)性
- 可以定義屬性的值約束和基數(shù)約束,在一定程度上確保其推理的正確性
-
與RDF比較
- 可以通過枚舉所有實例的方式定義類
- 可以通過已有類的集合操作來定義新的類
- 可以定義類之間的等價和不相交關(guān)系
知識圖譜的現(xiàn)狀及發(fā)展
維基類知識結(jié)構(gòu)化與常用知識圖譜
- 維基百科是有維基媒體基金會負(fù)責(zé)運營的一個自由內(nèi)容、自由編輯的多語言知識庫
- DBpedia是開放鏈接數(shù)據(jù)的核心,起源于由德國自由大學(xué)以及萊比錫大學(xué)的研究者在2007年發(fā)起的一項從維基百科里萃取結(jié)構(gòu)化知識的項目
- Freebase是一個由元數(shù)據(jù)組成的大型合作知識庫
- YAGO是由德國馬克斯-普朗克研究所構(gòu)建的大型多語言的語義知識庫
- BabelNet是最大的多語言百科全書式的字段和語義網(wǎng)絡(luò)
- XLORE是有清華大學(xué)知識工程研究是自主構(gòu)建的基于中英文維基和百度百科的開放知識平臺
知識圖譜的生命周期
-
生命周期
-
知識建模
定義領(lǐng)域知識描述的概念、事件、規(guī)則及其相互關(guān)系的知識表示方法,簡歷知識圖譜的概念模型
-
主要包括
-
領(lǐng)域概念
- 人們理解客觀世界的線索
- 人們對客觀世界中的事務(wù)在不同層次上的概念化描述
-
概念層次
知識圖譜的骨骼
-
概念體系的諸多問題
- 概念數(shù)量少、知識覆蓋率低
- 上下位關(guān)系稀疏、概念扁平化組織、知識的精確度低
- 上下位關(guān)系錯誤和噪聲多、概念結(jié)構(gòu)混亂
-
目的
- 確定概念與自概念之間的關(guān)系
- 判斷兩個概念之間是否存在上下位關(guān)系
-
基本步驟
- 進(jìn)行概念抽取
- 對概念間上下位關(guān)系進(jìn)行識別
- 將概念以識別得到的上下位關(guān)系為基礎(chǔ)組織成樹或有向無環(huán)圖的結(jié)構(gòu)
-
-
知識獲取
對知識模型定義的只是要素進(jìn)行實例化的過程
實例的屬性描述以三元組的形式表示,數(shù)量決定了知識圖譜的豐富程度
-
方法分類
-
有監(jiān)督的方法
- 基于規(guī)則
- 基于分類
- 基于序列標(biāo)注
-
半監(jiān)督的方法
- 自擴(kuò)展方法
- 遠(yuǎn)程監(jiān)督方法
-
無監(jiān)督的方法
- 開放信息抽取
-
知識圖譜語義集成的核心是本體模式層和實例層的匹配問題,即本體映射
-
匹配方法
-
基于實體
- 獨立的對實體進(jìn)行分析
- 不考慮實體與其他實體的關(guān)系
- 多利用實體相關(guān)的文本信息
-
基于結(jié)構(gòu)
- 通過分析實體與其他實體的結(jié)構(gòu)中的關(guān)系來計算相關(guān)性
- 主要基于圖結(jié)構(gòu)的匹配
-
-
知識管理
- 研究圖譜只是的存儲和索引,方便快速訪問和查詢
- 管理利用圖數(shù)據(jù)庫實現(xiàn)
-
知識賦能
- 增強(qiáng)搜索結(jié)果
- 改善用戶搜索體驗
- 應(yīng)用于知識問答
- 領(lǐng)域大數(shù)據(jù)分析
-
-
獲取知識的資源對象分類
-
結(jié)構(gòu)化
- 知識定義和表示都比較完備的數(shù)據(jù)
-
半結(jié)構(gòu)化
- 雖然知識的表示和定義并不一定規(guī)范統(tǒng)一,其中部分?jǐn)?shù)據(jù)仍遵循特定表示以較好的結(jié)構(gòu)化呈度呈現(xiàn),仍存在大量結(jié)構(gòu)化較低的數(shù)據(jù)
-
非結(jié)構(gòu)化
- 沒有定義和規(guī)范約束的自由數(shù)據(jù)
-
-
知識在數(shù)據(jù)中的分布特點
-
多媒體性
- 同一知識可能表達(dá)為不同的媒體形式
-
隱蔽性
- 很多有價值的知識可能存在于網(wǎng)頁鏈接或者資源文件中
-
分布性
- 關(guān)于同一事物的不同方面的只是往往分布也各異
-
異構(gòu)性
- 知識的分布表達(dá)和定義不可避免的造成異構(gòu)性,即不同用戶對于同一知識表示的表達(dá)和理解存在或多或少的差異
-
海量性
- 較傳統(tǒng)人工編撰的知識庫,互聯(lián)網(wǎng)上的知識的規(guī)模巨大
-
知識圖譜的應(yīng)用示例
語義搜索方面
- 利用良好定義的結(jié)構(gòu)形式,以又想吐的方式提供滿足用戶需求的結(jié)構(gòu)化語義內(nèi)容
知識問答
- IBM的Watson智能答題機(jī)器人
知識驅(qū)動的大數(shù)據(jù)與決策
- 決定了美劇《紙牌屋》的拍攝