可汗精讀《人工智能導(dǎo)論》04知識圖譜

04 知識圖譜

知識圖譜

知識圖譜

導(dǎo)論

  • 以結(jié)構(gòu)化的形式描述客觀世界中的概念、實體間的復(fù)雜關(guān)系
  • 將互聯(lián)網(wǎng)的信息表達(dá)成更接近人類認(rèn)知世界的形式
  • 為人類提供了一種更好地組織、管理和理解互聯(lián)網(wǎng)海量信息的能力
  • 采用本體知識表示方法
  • 是語義Web技術(shù)在互聯(lián)網(wǎng)上的成功應(yīng)用

最初由谷歌與2012年提出

目的是利用網(wǎng)絡(luò)多源數(shù)據(jù)構(gòu)建的知識庫來增強(qiáng)語義搜索、提升搜索質(zhì)量

旨在以結(jié)構(gòu)化的形式描述客觀世界中存在的概念、實體及其間的復(fù)雜關(guān)系

  • 概念是指人們在認(rèn)識世界過程中形成的對客觀事物的概念化表示
  • 實體是客觀世界中的具體事物
  • 關(guān)系描述概念、實體之間客觀存在的關(guān)聯(lián)

知識卡片

  • 知識圖譜在搜索中的展現(xiàn)形式

  • 傳統(tǒng)搜索把包含關(guān)鍵詞的頁面作為關(guān)鍵結(jié)果返回給用戶

  • 知識卡片旨在為用戶提供更多與搜索內(nèi)容相關(guān)的信息

  • 為用戶查詢或返回答案中所包含的概念或?qū)嶓w提供詳細(xì)的結(jié)構(gòu)化摘要,實現(xiàn)對搜索效果的三個方面提升

    • 找到最想要的消息
    • 提供最全面的摘要
    • 讓搜索更有深度和廣度
  • 可以展示實體間關(guān)系的信息

與Gruber在1993年提出的本體知識表示概念一致,可以看做是本體知識表示在互聯(lián)網(wǎng)大數(shù)據(jù)時代的知識表示的一個實際應(yīng)用

本體知識表示

本體的定義

  • 源于哲學(xué)領(lǐng)域,一直存在不同的用法

  • 本體論

    • 研究“存在”的科學(xué)

      • 試圖解釋存在時什么
      • 試圖解釋世間所有存在的共同特征是什么
    • 基本元素

      • 概念及概念間的關(guān)聯(lián)
  • 計算機(jī)領(lǐng)域本地指一種“形式化的、對于共享概念體系的明確且詳細(xì)的說明”

  • 顯式的定義了領(lǐng)域中的概念、關(guān)系和公里及其之間的關(guān)系

本體的特性

  • 概念化

    • 對客觀世界中存在事物或現(xiàn)象以及他們之間關(guān)系的概念化抽象
  • 精確性

    • 本題中的概念、關(guān)系以及各種約束被精確地定義
  • 形式化

    • 為了方便人機(jī)交互和計算機(jī)推理,因此其定義是形式化且及其可理解和推理計算的
  • 共享性

    • 表示要建立在領(lǐng)域內(nèi)的共同認(rèn)知基礎(chǔ)上,可以有效促進(jìn)知識共享

本體的組成

  • 概念(concept)

    • 也稱類
    • 是某一領(lǐng)域內(nèi)相同性質(zhì)對象集合的抽象表示形式
  • 實例(instance)

    • 概念中的特定元素
    • 往往對應(yīng)客觀世界的具體事物
  • 關(guān)系(relation)

    • 也稱屬性
    • 是指概念與概念或概念與實例間的關(guān)系類型
    • 關(guān)系(屬性)的興義能夠更好地刻畫概念的屬性
    • 關(guān)系可以關(guān)聯(lián)實例
    • 關(guān)系還可以關(guān)聯(lián)具體的字符串或者數(shù)值
  • 公理(axiom)

    • 描述領(lǐng)域內(nèi)總是成立(為真)的陳述
    • 是對所定義領(lǐng)域規(guī)則的描述

萬維網(wǎng)知識表示

以為本和超鏈接描述信息,為人民提供一個知識開放共享的平臺

正在進(jìn)行僅包含網(wǎng)頁和網(wǎng)頁間超鏈接的文檔向包含實體和實體之間豐富關(guān)系的數(shù)據(jù)萬維網(wǎng)的轉(zhuǎn)變

語義萬維網(wǎng)

  • 與萬維網(wǎng)的區(qū)別

    • 萬維網(wǎng)是關(guān)于網(wǎng)頁鏈接的圖結(jié)構(gòu),節(jié)點是網(wǎng)頁,網(wǎng)頁內(nèi)容是動態(tài)的、面向人理解的內(nèi)容
    • 語義Web中,網(wǎng)絡(luò)結(jié)構(gòu)是萬維網(wǎng)上內(nèi)容的結(jié)構(gòu)化表示,不僅人可以理解,可以同步發(fā)布及其可以處理和理解的內(nèi)容,通過規(guī)范和鏈接實現(xiàn)數(shù)據(jù)集成
  • 超文本

    • 用超鏈接的方法講各種不同空間的文字信息組織在一起的網(wǎng)狀文本
    • 設(shè)計思想史面向用戶,需要人理解網(wǎng)頁內(nèi)容,機(jī)器只負(fù)責(zé)解析和展示,不能理解和推理網(wǎng)頁內(nèi)容
    • 網(wǎng)絡(luò)上的語義內(nèi)容可以很容易地被人獲取,但無法被計算機(jī)理解和計算
  • 萬維網(wǎng)協(xié)議

    • 用戶通過超鏈接瀏覽互聯(lián)網(wǎng)上的各類資源
    • 也可以通過互聯(lián)網(wǎng)講自己的信息發(fā)布出去
  • 愿景

    • 信息內(nèi)容具有良好的語義定義
    • 計算機(jī)可以理解并自動存取語義,進(jìn)行推理、完成特定任務(wù)的智能服務(wù)
    • 計算機(jī)和人能夠更好的協(xié)同工作
  • 語義萬維網(wǎng)的實現(xiàn)

    • 需要將當(dāng)前面向人理解的互聯(lián)網(wǎng)內(nèi)容編程面向機(jī)器的具有語義的內(nèi)容
    • 需要萬維網(wǎng)內(nèi)容的知識表示手段
    • 在語義Web下有很多完成特定任務(wù)的智能代理,可以存取互聯(lián)網(wǎng)知識并且與其他智能代理進(jìn)行交互
    • 本體定義了互聯(lián)網(wǎng)上知識表示的方法
    • 互聯(lián)網(wǎng)內(nèi)容是嵌入以本體描述的計算機(jī)可以理解和推理的結(jié)構(gòu)化內(nèi)容
    • 個人助理之間通過本體定義的語義進(jìn)行交互
  • 互聯(lián)網(wǎng)的語義信息是分布式定義并且連接的

萬維網(wǎng)知識描述語言

  • 可擴(kuò)展標(biāo)記語言XML

    • 一種使用標(biāo)簽來組織互聯(lián)網(wǎng)信息內(nèi)容的標(biāo)記語言

    • 由三個基本概念組成

      • 標(biāo)簽

        • 用于標(biāo)識一段數(shù)據(jù)
      • 元素

        • 被標(biāo)簽包圍的數(shù)據(jù)
      • 屬性

        • 元素可以具有屬性,屬性用來為元素提供額外的信息
    • 本質(zhì)上是個樹形結(jié)構(gòu)

      • 每個XML文檔有且僅有一個頂級標(biāo)簽

      • 每個元素必須包含一個開始標(biāo)簽和一個結(jié)束標(biāo)簽

      • 標(biāo)簽不能較差,必須被正確的嵌套

      • 元素可以包含屬性,但是屬性名不能重復(fù)使用

      • 標(biāo)簽和屬性的名字必須被允許

        • 特定領(lǐng)域只能使用特定的標(biāo)簽和屬性
  • 資源描述框架RDF與鏈接數(shù)據(jù)

    • 與XML的區(qū)別

      • XML沒有對每個標(biāo)簽意義的準(zhǔn)確描述

      • 同一語義可以用多種不同結(jié)構(gòu)的XML進(jìn)行表叔

      • 在沒有額外信息的情況下

        • 機(jī)器無法理解每個標(biāo)簽的準(zhǔn)確含義
        • 無法理解各個標(biāo)簽之間的關(guān)系
        • 無法進(jìn)行知識的推理
    • 實現(xiàn)語義網(wǎng)的三個功能

      • 保證了語義網(wǎng)的內(nèi)容有準(zhǔn)確含義
      • 保證了語義網(wǎng)的內(nèi)容可以被計算機(jī)理解并處理
      • 可以通過各種網(wǎng)頁中的內(nèi)容集成幫助進(jìn)行自動數(shù)據(jù)處理
    • RDF的重要概念

      • 資源

        • 存在全球統(tǒng)一資源標(biāo)識符的事務(wù)
        • 它是互聯(lián)網(wǎng)正在討論或者指向的任何事物
        • RDF中的各種定義本身也是資源
        • 可以對應(yīng)知識圖譜表示中的概念、實體和關(guān)系
      • 屬性

        • 一種特殊的資源,它描述了資源之間的關(guān)系
      • 陳述

        • 一個由主語、謂語、賓語構(gòu)成的三元組
        • 主語、謂語、賓語都是資源
        • 主語是資源,謂語和賓語分別表示其屬性和屬性值
    • 如果將RDF的一個三元組中的主語和賓語表示成節(jié)點,講之間的關(guān)系表達(dá)成一條從主語到賓語的有向邊,則所有RDF三元組就將互聯(lián)網(wǎng)的知識結(jié)構(gòu)轉(zhuǎn)化為圖結(jié)構(gòu)

    • RDF Schema是用來定義RDF中的類和屬性語義的描述性語言

    • 鏈接數(shù)據(jù)提出的目的是將網(wǎng)絡(luò)上眾多的數(shù)據(jù)鏈接起來,構(gòu)建一個計算機(jī)能夠理解的語義網(wǎng)絡(luò)

    • 鏈接數(shù)據(jù)構(gòu)建的四個基本原則

      • 與RDF一樣,使用URI來標(biāo)識每個事物(資源)
      • 使用HTTP URI。便于用戶可以像訪問網(wǎng)頁一樣直接查看事物,真正實現(xiàn)互聯(lián)
      • 當(dāng)用戶查看一個URI時,可以使用RDF等標(biāo)準(zhǔn)提供有用的信息
      • 為事物添加與其他事物的URI連接,建立數(shù)據(jù)關(guān)聯(lián)
    • 鏈接數(shù)據(jù)的意義

      • 打破了各種格式信息之間的隔離
      • 打破了不同信息來源之間的隔閡
      • 由于標(biāo)準(zhǔn)統(tǒng)一,鏈接數(shù)據(jù)使數(shù)據(jù)集成和瀏覽復(fù)雜數(shù)據(jù)變得容易
      • 可以比較容易的更新和擴(kuò)展模型
      • 遵循全球統(tǒng)一的鏈接原則也會提升數(shù)據(jù)的質(zhì)量,使數(shù)據(jù)的運用和傳遞更加方便
  • 網(wǎng)絡(luò)本體語言O(shè)WL

    • 進(jìn)一步增強(qiáng)了RDF的語義表達(dá)能力,是W3C標(biāo)準(zhǔn)定義的基于描述邏輯的本體語言

    • 其構(gòu)造函數(shù)/公里是受限的,因此在OWL中的推理是可判斷的

    • 主要體現(xiàn)在對屬性和類的予以描述兩方面

    • 屬性刻畫方面

      • 使用定義域和值域來表示該屬性使用的類和取值范圍,將屬性與類關(guān)聯(lián)
      • 可以通過子屬性來具體化一個屬性
    • OWL的特征

      • 對稱性
      • 傳遞性
      • 函數(shù)性
      • 可逆性
      • 反函數(shù)性
      • 可以定義屬性的值約束和基數(shù)約束,在一定程度上確保其推理的正確性
    • 與RDF比較

      • 可以通過枚舉所有實例的方式定義類
      • 可以通過已有類的集合操作來定義新的類
      • 可以定義類之間的等價和不相交關(guān)系

知識圖譜的現(xiàn)狀及發(fā)展

維基類知識結(jié)構(gòu)化與常用知識圖譜

  • 維基百科是有維基媒體基金會負(fù)責(zé)運營的一個自由內(nèi)容、自由編輯的多語言知識庫
  • DBpedia是開放鏈接數(shù)據(jù)的核心,起源于由德國自由大學(xué)以及萊比錫大學(xué)的研究者在2007年發(fā)起的一項從維基百科里萃取結(jié)構(gòu)化知識的項目
  • Freebase是一個由元數(shù)據(jù)組成的大型合作知識庫
  • YAGO是由德國馬克斯-普朗克研究所構(gòu)建的大型多語言的語義知識庫
  • BabelNet是最大的多語言百科全書式的字段和語義網(wǎng)絡(luò)
  • XLORE是有清華大學(xué)知識工程研究是自主構(gòu)建的基于中英文維基和百度百科的開放知識平臺

知識圖譜的生命周期

  • 生命周期

    • 知識建模

      • 定義領(lǐng)域知識描述的概念、事件、規(guī)則及其相互關(guān)系的知識表示方法,簡歷知識圖譜的概念模型

      • 主要包括

        • 領(lǐng)域概念

          • 人們理解客觀世界的線索
          • 人們對客觀世界中的事務(wù)在不同層次上的概念化描述
        • 概念層次

          • 知識圖譜的骨骼

          • 概念體系的諸多問題

            • 概念數(shù)量少、知識覆蓋率低
            • 上下位關(guān)系稀疏、概念扁平化組織、知識的精確度低
            • 上下位關(guān)系錯誤和噪聲多、概念結(jié)構(gòu)混亂
          • 目的

            • 確定概念與自概念之間的關(guān)系
            • 判斷兩個概念之間是否存在上下位關(guān)系
          • 基本步驟

            • 進(jìn)行概念抽取
            • 對概念間上下位關(guān)系進(jìn)行識別
            • 將概念以識別得到的上下位關(guān)系為基礎(chǔ)組織成樹或有向無環(huán)圖的結(jié)構(gòu)
    • 知識獲取

      • 對知識模型定義的只是要素進(jìn)行實例化的過程

      • 實例的屬性描述以三元組的形式表示,數(shù)量決定了知識圖譜的豐富程度

      • 方法分類

        • 有監(jiān)督的方法

          • 基于規(guī)則
          • 基于分類
          • 基于序列標(biāo)注
        • 半監(jiān)督的方法

          • 自擴(kuò)展方法
          • 遠(yuǎn)程監(jiān)督方法
        • 無監(jiān)督的方法

          • 開放信息抽取
      • 知識圖譜語義集成的核心是本體模式層和實例層的匹配問題,即本體映射

      • 匹配方法

        • 基于實體

          • 獨立的對實體進(jìn)行分析
          • 不考慮實體與其他實體的關(guān)系
          • 多利用實體相關(guān)的文本信息
        • 基于結(jié)構(gòu)

          • 通過分析實體與其他實體的結(jié)構(gòu)中的關(guān)系來計算相關(guān)性
          • 主要基于圖結(jié)構(gòu)的匹配
    • 知識管理

      • 研究圖譜只是的存儲和索引,方便快速訪問和查詢
      • 管理利用圖數(shù)據(jù)庫實現(xiàn)
    • 知識賦能

      • 增強(qiáng)搜索結(jié)果
      • 改善用戶搜索體驗
      • 應(yīng)用于知識問答
      • 領(lǐng)域大數(shù)據(jù)分析
  • 獲取知識的資源對象分類

    • 結(jié)構(gòu)化

      • 知識定義和表示都比較完備的數(shù)據(jù)
    • 半結(jié)構(gòu)化

      • 雖然知識的表示和定義并不一定規(guī)范統(tǒng)一,其中部分?jǐn)?shù)據(jù)仍遵循特定表示以較好的結(jié)構(gòu)化呈度呈現(xiàn),仍存在大量結(jié)構(gòu)化較低的數(shù)據(jù)
    • 非結(jié)構(gòu)化

      • 沒有定義和規(guī)范約束的自由數(shù)據(jù)
  • 知識在數(shù)據(jù)中的分布特點

    • 多媒體性

      • 同一知識可能表達(dá)為不同的媒體形式
    • 隱蔽性

      • 很多有價值的知識可能存在于網(wǎng)頁鏈接或者資源文件中
    • 分布性

      • 關(guān)于同一事物的不同方面的只是往往分布也各異
    • 異構(gòu)性

      • 知識的分布表達(dá)和定義不可避免的造成異構(gòu)性,即不同用戶對于同一知識表示的表達(dá)和理解存在或多或少的差異
    • 海量性

      • 較傳統(tǒng)人工編撰的知識庫,互聯(lián)網(wǎng)上的知識的規(guī)模巨大

知識圖譜的應(yīng)用示例

語義搜索方面

  • 利用良好定義的結(jié)構(gòu)形式,以又想吐的方式提供滿足用戶需求的結(jié)構(gòu)化語義內(nèi)容

知識問答

  • IBM的Watson智能答題機(jī)器人

知識驅(qū)動的大數(shù)據(jù)與決策

  • 決定了美劇《紙牌屋》的拍攝

知識圖譜未來研究熱點

研究知識表示和獲取的新理論和新方法,使只是既具有顯式的語義定義,又便于大數(shù)據(jù)下的知識計算

隨著信息技術(shù)從信息服務(wù)向知識服務(wù)轉(zhuǎn)變,研究建立知識圖譜構(gòu)建的平臺,以服務(wù)不同的行業(yè)和應(yīng)用

雖然在語義搜索和知識問答等應(yīng)用中展示出一定成效,如何進(jìn)一步推進(jìn)知識驅(qū)動的智能信息處理應(yīng)用是十分有價值的研究

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,030評論 6 531
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 98,310評論 3 415
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事?!?“怎么了?”我有些...
    開封第一講書人閱讀 175,951評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,796評論 1 309
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 71,566評論 6 407
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 55,055評論 1 322
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,142評論 3 440
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 42,303評論 0 288
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 48,799評論 1 333
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 40,683評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,899評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,409評論 5 358
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 44,135評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,520評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,757評論 1 282
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,528評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 47,844評論 2 372

推薦閱讀更多精彩內(nèi)容