知識圖譜技術解剖

本體、知識庫、知識圖譜、知識圖譜識別之間的關系?

本體:領域術語集合。

知識庫:知識集合。

知識圖譜:圖狀具有關聯性的知識集合。

知識圖譜本質上是語義網絡,是一種基于圖的數據結構,由節點(Point)和邊(Edge)組成。在知識圖譜里,每個節點表示現實世界中存在的“實體”,每條邊為實體與實體之間的“關系”。知識圖譜是關系的最有效的表示方式。通俗地講,知識圖譜就是把所有不同種類的信息連接在一起而得到的一個關系網絡。知識圖譜提供了從“關系”的角度去分析問題的能力。

構建知識圖譜的主要目的是獲取大量的、讓計算機可讀的知識。但是構建知識圖譜的重點在于語義理解、知識表示、QA、智能對話和用戶建模。但從抽象層面看,本體最抽象,其次是知識庫,最后才是知識圖譜。知識庫就是一個知識數據庫,包含了知識的本體和知識。比如Freebase是一個知識庫(結構化),維基百科也可以看成一個知識庫(半結構化),等等。也就是說,本體是強調概念關系,知識圖譜強調實體關系和實體屬性值,知識庫則是所有知識的集合。但是知識庫不局限于分類和圖譜,知識庫可以包括規則,包括過程性知識等。而本體也可以定義得很抽象,任何概念的內涵和外延可以定義本體。

知識圖譜部署成本

知識圖譜是一系列結構化數據的處理方法,它涉及知識的提取、 表示、存儲、檢索等諸多技術。從淵源上講,它是知識表示與推理、數據庫、信息檢索、自然語言處理等多種技術發展的融合。 但傳統的知識處理方法,在實際的工程應用,特別是互聯網應用中,面臨實施成本高、技術周期長、熟悉該類技術的人才缺乏、 基礎數據不足等諸多現實制約。實戰中的知識圖譜,需要充分利用成熟的工業技術,不拘泥于特定的工具和方法,特別是不盲目追求標準化、技術的先進性或者新穎性,以實際的業務出發,循序漸進推進工程的實施。

知識圖譜的全周期成本:有哪些成本?分為技術成本、團隊成本和組織成本。技術有知識提取的成本、知識存儲的成本、知識推理的成本、知識檢索的成本、運維的成本、更新的成本。教育成本,一個人進來之后,他到底是一個月之后就能干活,還是半年之后能干活,取決于你的技術架構。如果你的知識提取架構是以正則表達式為基礎的,那可能很容易。如果你是以一個規則的神經網絡分布式表示來做,可能要半年之后才能理解是什么,所以這都是成本。

知識圖譜和專家系統有什么異同點?

專家系統一般來說是基于規則的,專家系統的知識更多的是人工構建,知識圖譜可以作為專家系統的一部分存在,提供半自動構建知識庫的方法。要說共同點都是人工智能的應用,肯定有很多共有技術的,不同點可能就是根據不同的場景特意的技術運用。

知識圖譜: 他是邁向下一代搜索業務關鍵的第一步,使得搜索智能化,根據用戶的意圖給出用戶想要的結果。

特點:

1、用戶搜索次數越多,范圍越廣,Google 就能獲取越多信息和內容。

2、賦予字串新的意義,而不只是單純的字串。

3、融合了所有的學科,以便于用戶搜索時的連貫性。

4、為用戶找出更加準確的信息,作出做全面的總結并提供更有深度相關的信息。

5、把與關鍵詞相關的知識體系系統化地展示給用戶。

6、用戶只需登錄Google旗下60多種在線服務中的一種就能獲取在其他服務上保留的信息和數據。

7、Google從整個互聯網汲取有用的信息讓用戶能夠獲得更多相關的公共資源。

專家系統: 是一種模擬人類專家解決領域問題的計算機程序系統 。

特點:專家系統是一個具有大量的專門知識與經驗的程序系統,它應用人工智能技術和計算機技術,根據某領域一個或多個專家提供的知識和經驗,進行推理和判斷,模擬人類專家的決策過程,以便解決那些需要人類專家處理的復雜問題。

什么叫專家系統?就是人去學一個東西,然后把學到的知識理論化,再把這些理論模型化,最后把這個模型程序化,形成一個系統,就叫專家系統。

知識圖譜分為三個部分技術組成:

第一個部分是知識獲取,主要闡述如何從非結構化、半結構化、以及結構化數據中獲取知識。

第二部是數據融合,主要闡述如何將不同數據源獲取的知識進行融合構建數據之間的關聯。

第三部分是知識計算及應用,這一部分關注的是基于知識圖譜計算功能以及基于知識圖譜的應用。

1.1.1?知識獲取

在處理非結構化數據方面,首先要對用戶的非結構化數據提取正文。目前的互聯網數據存在著大量的廣告,正文提取技術希望有效的過濾廣告而只保留用戶關注的文本內容。當得到正文文本后,需要通過自然語言技術識別文章中的實體,實體識別通常有兩種方法,一種是用戶本身有一個知識庫則可以使用實體鏈接將文章中可能的候選實體鏈接到用戶的知識庫上。另一種是當用戶沒有知識庫則需要使用命名實體識別技術識別文章中的實體。

若文章中存在實體的別名或者簡稱還需要構建實體間的同義詞表,這樣可以使不同實體具有相同的描述。在識別實體的過程中可能會用到分詞、詞性標注,以及深度學習模型中需要用到分布式表達如詞向量。同時為了得到不同粒度的知識還可能需要提取文中的關鍵詞,獲取文章的潛在主題等。當用戶獲得實體后,則需要關注實體間的關系,我們稱為實體關系識別,有些實體關系識別的方法會利用句法結構來幫助確定兩個實體間的關系,因此在有些算法中會利用依存分析或者語義解析。如果用戶不僅僅想獲取實體間的關系,還想獲取一個事件的詳細內容,那么則需要確定事件的觸發詞并獲取事件相應描述的句子,同時識別事件描述句子中實體對應事件的角色。

在處理半結構化數據方面,主要的工作是通過包裝器學習半結構化數據的抽取規則。由于半結構化數據具有大量的重復性的結構,因此對數據進行少量的標注,可以讓機器學出一定的規則進而在整個站點下使用規則對同類型或者符合某種關系的數據進行抽取。最后當用戶的數據存儲在生產系統的數據庫中時,需要通過?ETL?工具對用戶生產系統下的數據進行重新組織、清洗、檢測最后得到符合用戶使用目的數據。

1.1.2?知識融合

當知識從各個數據源下獲取時需要提供統一的術語將各個數據源獲取的知識融合成一個龐大的知識庫。提供統一術語的結構或者數據被稱為本體,本體不僅提供了統一的術語字典,還構建了各個術語間的關系以及限制。本體可以讓用戶非常方便和靈活的根據自己的業務建立或者修改數據模型。通過數據映射技術建立本體中術語和不同數據源抽取知識中詞匯的映射關系,進而將不同數據源的數據融合在一起。

同時不同源的實體可能會指向現實世界的同一個客體,這時需要使用實體匹配將不同數據源相同客體的數據進行融合。不同本體間也會存在某些術語描述同一類數據,那么對這些本體間則需要本體融合技術把不同的本體融合。最后融合而成的知識庫需要一個存儲、管理的解決方案。

知識存儲和管理的解決方案會根據用戶查詢場景的不同采用不同的存儲架構如?NoSQL?或者關系數據庫。同時大規模的知識庫也符合大數據的特征,因此需要傳統的大數據平臺如?Spark?或者?Hadoop?提供高性能計算能力,支持快速運算。

1.1.2 知識計算及應用

知識計算主要是根據圖譜提供的信息得到更多隱含的知識,如通過本體或者規則推理技術可以獲取數據中存在的隱含知識;而鏈接預測則可預測實體間隱含的關系;同時使用社會計算的不同算法在知識網絡上計算獲取知識圖譜上存在的社區,提供知識間關聯的路徑;通過不一致檢測技術發現數據中的噪聲和缺陷。通過知識計算知識圖譜可以產生大量的智能應用如可以提供精確的用戶畫像為精準營銷系統提供潛在的客戶;提供領域知識給專家系統提供決策數據,給律師、醫生、公司 CEO 等提供輔助決策的意見;提供更智能的檢索方式,使用戶可以通過自然語言進行搜索;當然知識圖譜也是問答必不可少的重要組建。

1.2 實體關系識別技術

基于統計學的方法將從文本中識別實體間關系的問題轉化為分類問題。基于統計學的方法在實體關系識別時需要加入實體關系上下文信息確定實體間的關系,然而基于監督的方法依賴大量的標注數據,因此半監督或者無監督的方法受到了更多關注。

知識融合技術

知識融合指的是將多個數據源抽取的知識進行融合。與傳統數據融合任務的主要不同是,知識融合可能使用多個知識抽取工具為每個數據項從每個數據源中抽取相應的值,而數據融合未考慮多個抽取工具。由此,知識融合除了應對抽取出來的事實本身可能存在的噪音外,還比數據融合多引入了一個噪音,就是不同抽取工具通過實體鏈接和本體匹配可能產生不同的結果。另外,知識融合還需要考慮本體的融合和實例的融合。

首先從已有的數據融合方法中挑選出易于產生有意義概率的、便于使用基于 MapReduce 框架的、有前途的最新方法,然后對這些挑選出的方法做出以下改進以用于知識融合:將每個抽取工具同每個信息源配對,每對作為數據融合任務中的一個數據源,這樣就變成了傳統的數據融合任務;改進已有數據融合方法使其輸出概率,代替原來的真假二值;根據知識融合中的數據特征修改基于 MapReduce 的框架。可以將通過不同搜索引擎得到的知識卡片(即結構化的總結)融合起來的方法。

針對一個實體查詢,不同搜索引擎可能返回不同的知識卡片,即便同一個搜索引擎也可能返回多個知識卡片。將這些知識卡片融合起來時,將知識融合中的三維問題將為二維問題,再應用傳統的數據融合技術。不過一個新的概率打分算法,是用于挑選一個知識卡片最有可能指向的實體,并設計了一個基于學習的方法來做屬性匹配。

在知識融合技術中,本體匹配扮演著非常重要的角色,提供了概念或者實體之間的對應關系。截止目前,人們已經提出了各種各樣的本體匹配算法,一般可以分為模式匹配(schema matching)和實例匹配(instance matching),也有少量的同時考慮模式和實例的匹配[32-34]。從技術層面來講,本體匹配可分為啟發式方法、概率方法、基于圖的方法、基于學習的方法和基于推理的方法。下面圍繞模式匹配和實例匹配,具體介紹各自分類中幾個具有代表性的匹配方法。

模式匹配主要尋找本體中屬性和概念之間的對應關系,一個自動的語義匹配方法,該方法首先利用像 WordNet 之類的詞典以及本體的結構等信息進行模式匹配,然后將結果根據加權平均的方法整合起來,再利用一些模式(patterns)進行一致性檢查,去除那些導致不一致的對應關系。該過程可循環的,直到不再找到新的對應關系為止。考慮多種匹配算法的結合,利用基于術語的一些相似度計算算法,例如 n-gram 和編輯距離,這里算法計算的結果根據加權求和進行合并,還考慮了概念的層次關系和一些背景知識,最后通過用戶定義的權重進行合并。

為了應對大規模的本體,使用錨(anchor)的系統,該系統以一對來自兩個本體的相似概念為起點,根據這些概念的父概念和子概念等鄰居信息逐漸地構建小片段,從中找出匹配的概念。新找出的匹配的概念對又可作為新的錨,然后再根據鄰居信息構建新的片段。該過程不斷地重復,直到未找到新的匹配概念對時停止。則以分而治之的思想處理大規模本體,該方法先根據本體的結構對其進行劃分獲得組塊,然后從不同本體獲得的組塊進行基于錨的匹配,這里的錨是指事先匹配好的實體對,最后再從匹配的組塊中找出對應的概念和屬性。

現有的匹配方法通常是將多個匹配算法相結合,采用加權平均或加權求和的方式進行合并。但是,由于本體結構的不對稱性等特征,這種固定的加權方法顯出不足。基于貝葉斯決策的風險最小化提出一個動態的合并方法,該方法可以根據本體的特征,在計算每個實體對的相似度時動態地選擇使用哪幾個匹配算法,如何合并這些算法,其靈活性帶來了很好的匹配結果。實例匹配是評估異構知識源之間實例對的相似度,用來判斷這些實例是否指向給定領域的相同實體。

最近幾年,隨著 Web 2.0 和語義 Web 技術的不斷發展,越來越多的語義數據往往具有豐富實例和薄弱模式的特點,促使本體匹配的研究工作慢慢的從模式層轉移到實例層。一個自訓練的方法進行實例匹配,該方法首先根據 owl:sameAs、函數型屬性(functional properties)和基數(cardinalities)構建一個核(kernel),再根據區別比較明顯的屬性值對遞歸的對該核進行擴展。利用現有的局部敏感哈希技術來大幅提高實例匹配的可擴展性,該方法首先需要定義用于實例相似性分析的粒度,然后使用分割好的字符串技術實例相似度。

首先使用向量空間模型表示實例的描述性信息,再基于規則采用倒排索引(inverted indexes)獲取最初的匹配候選,在使用用戶定義的屬性值對候選進行過濾,最后計算出的匹配候選相似度用來作為整合的向量距離,由此抽取出匹配結果。雖然已有方法中已有不少用于處理大規模本體的實例匹配問題,但是同時保證高效和高精度仍然是個很大的挑戰。一個迭代的框架,充分利用特征明顯的已有匹配方法來提高效率,同時基于相似度傳播的方法利用一個加權指數函數來確保實例匹配的高精度。

1.4 實體鏈接技術

歧義性和多樣性是自然語言的固有屬性,也是實體鏈接的根本難點。如何挖掘更多、更加有效的消歧證據,設計更高性能的消歧算法依然是實體鏈接系統的核心研究問題,值得進一步研究。下面按照不同的實體消歧方法進行分類。

基于概率生成模型方法:一種生成概率模型,將候選實體 e 出現在某頁面中的概率、特定實體 e 被表示為實體指稱項的概率以及實體 e 出現在特定上下文中的概率三者相乘,得到候選實體同實體指稱項之間的相似度評分值。Blanco 和 Ottaviano 等人[48]提出了用于搜索查詢實體鏈接的概率模型,該方法采用了散列技術與上下文知識,有效地提高了實體鏈接的效率。

基于主題模型的方法:通過模型自動對文本中的實體指稱進行標注,生成訓練數據集用于訓練 LDA 主題模型,然后計算實體指稱和候選實體的上下文語義相似度從而消歧得到目標實體。對用戶的興趣主題建模的方法,首先構建關系圖,圖中包含了不同命名實體間的相互依賴關系,然后利用局部信息對關系圖中每個命名實體賦予初始興趣值,最后利用傳播算法對不同命名實體的興趣值進行傳播得到最終興趣值,選擇具有最高興趣值的候選實體。

基于圖的方法:構造了一種基于圖的模型,其中圖節點為所有實體指稱和所有候選實體;圖的邊分為兩類,一類是實體指稱和其對應的候選實體之間的邊,權重為實體指稱和候選實體之間的局部文本相似度,采用詞袋模型和余弦距離計算得出。另一類是候選實體之間的邊,權重為候選實體之間的語義相關度,采用谷歌距離計算。算法首先采集不同實體的初始置信度,然后通過圖中的邊對置信度進行傳播和增強。

基于圖和語義關系的命名實體消歧方法,該方法在維基百科上建立基于圖的模型,然后在該模型上計算各個命名實體的得分從而確定了目標實體,該方法在新聞數據上取得了較高的準確率。采用基于圖的方法,圖中的節點為所有的候選實體,邊采用兩種方式構建,一種是實體之間的維基百科鏈接,另一種是使用實體在維基百科文章中句子的共現。圖中的候選實體節點通過和實體指稱的相似度值被賦予初始值,采用 PageRank 選擇目標實體。使用實體的先驗概率,實體指稱和候選實體的上下文相似度,以及候選實體之間的內聚性構成一個加權圖,從中選擇出一個候選實體的密集子圖作為最可能的目標實體分配給實體指稱。

基于深度神經網絡的方法:一種用于實體消歧的實體表示訓練方法。該方法對文章內容進行自編碼,利用深度神經網絡模型以有監督的方式訓練實體表示,依據語義表示相似度對候選實體進行排序,但該方法是一種局部性方法,沒有考慮同一文本中共同出現的實體間相關性。基于深度神經網絡和語義知識圖譜,提出了一種基于圖的半監督實體消歧義方法,將深度神經網絡模型得到的實體間語義關聯度作為圖中的邊權值。

從實驗結果得出:基于語義知識圖譜的 NGD 和VSM方法比起 Wikipedia anchor links 無論在關聯性測試上還是在消歧性能上都具有更好的測試結果。相比 NGD 和 VSM,基于 DNN的深度語義關聯方法在關聯性測試上還是在消歧性能上都具有更好的關聯性和更高的準確性。但該方法存在兩點不足,一方面在構建深度語義關聯模型時采用詞袋子方法,沒有考慮上下文詞之間位置關系,另外一方面在消歧的過程中,構建的圖模型沒有充分利用已消歧實體,邊權值和頂點得分隨著未消歧實體增加保持不變,并沒有為后續的歧義實體增加信息量。

1.5 知識推理技術

知識庫推理可以粗略地分為基于符號的推理和基于統計的推理。在人工智能的研究中,基于符號的推理一般是基于經典邏輯(一階謂詞邏輯或者命題邏輯)或者經典邏輯的變異(比如說缺省邏輯)。基于符號的推理可以從一個已有的知識圖譜,利用規則,推理出新的實體間關系,還可以對知識圖譜進行邏輯的沖突檢測。基于統計的方法一般指關系機器學習方法,通過統計規律從知識圖譜中學習到新的實體間關系。

1.5.1 基于符號邏輯的推理方法

為了使得語義網絡同時具備形式化語義和高效推理,一些研究人員提出了易處理(tractable)概念語言,并且開發了一些商用化的語義網絡系統。這些系統的提出,使得針對概念描述的一系列邏輯語言,統稱描述邏輯(description logic),得到了學術界和業界廣泛關注。但是這些系統的推理效率難以滿足日益增長的數據的需求,最終沒能得到廣泛應用。這一困局被利物浦大學的 Ian Horrocks 教授打破,他開發的 FaCT 系統可以處理一個比較大的醫療術語本體 GALEN,而且性能比其他類似的推理機要好得多。描述邏輯最終成為了 W3C 推薦的 Web 本體語言 OWL 的邏輯基礎。

雖然描述邏輯推理機的優化取得了很大的進展,但是還是跟不上數據增長的速度,特別是當數據規模大到目前的基于內存的服務器無法處理的情況下。為了應對這一挑戰,最近幾年,研究人員開始考慮將描述邏輯和 RDFS 的推理并行來提升推理的效率和可擴展性,并且取得了很多成果。并行推理工作所借助的并行技術分為以下兩類:1)單機環境下的多核、多處理器技術,比如多線程,GPU 技術等;2)多機環境下基于網絡通信的分布式技術,比如 MapReduce 計算框架、Peer-To-Peer 網絡框架等。很多工作嘗試利用這些技術實現高效的并行推理。

單機環境下的并行技術以共享內存模型為特點,側重于提升本體推理的時間效率。對于實時性要求較高的應用場景,這種方法成為首選。對于表達能力較低的語言,比如 RDFS、OWL EL,單機環境下的并行技術將顯著地提升本體推理效率。Goodman 等人在[59]中利用高性能計算平臺 Cray XMT 實現了大規模的 RDFS 本體推理,利用平臺計算資源的優勢限制所有推理任務在內存完成。

然而對于計算資源有限的平臺,內存使用率的優化成為了不可避免的問題。工作中將 RDFS,以及表達能力更高的 OWL RL 等價地轉換為 Datalog 程序,然后利用 Datalog 中的并行優化技術來解決內存的使用率問題。利用并行與串行的混合方法來提升OWL RL的推理效率,利用多線程技術實現 OWL EL 分類(classification)的方法,并實現推理機 ELK。

盡管單機環境的推理技術可以滿足高推理性能的需求,但是由于計算資源有限(比如內存,存儲容量),推理方法的可伸縮性(scalability)受到不同程度的限制。因此,很多工作利用分布式技術突破大規模數據的處理界限。這種方法利用多機搭建集群來實現本體推理。

首個嘗試利用 Peer-To-Peer 的分布式框架實現 RDF 數據推理的工作。實驗結果表明,利用分布式技術可以完成很多在單機環境下無法完成的大數據量推理任務。很多工作基于 MapReduce 的開源實現(如 Hadoop,Spark 等)設計提出了大規模本體的推理方法。實驗結果證實其在大集群上可以完成上百億的 RDF 三元組的推理。基于 MapReduce 的 OWL RL 查詢算法利用 MapReduce 來實現 OWL EL 本體的推理算法在實驗證明 MapReduce 技術同樣可以解決大規模的 OWL EL 本體推理。工作中,進一步擴展 OWL EL 的推理技術,使得推理可以在多個并行計算平臺完成。

1.5.2 基于統計的推理方法

知識圖譜中基于統計的推理方法一般指關系機器學習方法。下面介紹一些典型的方法。

實體關系學習方法

實體關系學習的目的是學習知識圖譜中實例和實例之間的關系。這方面的工作非常多,也是最近幾年知識圖譜的一個比較熱的研究方向。可以分為潛在特征模型和圖特征模型兩種。潛在特征模型通過實例的潛在特征來解釋三元組。比如說,莫言獲得諾貝爾文學獎的一個可能解釋是他是一個有名的作家。一個關系潛在特征模型,稱為雙線性(bilinear)模型,該模型考慮了潛在特征的兩兩交互來學習潛在的實體關系。應用兩兩交互的張量分解模型來學習知識圖譜中的潛在關系。

翻譯(translation)模型將實體與關系統一映射至低維向量空間中,且認為關系向量中承載了頭實體翻譯至尾實體的潛在特征。因此,通過發掘、對比向量空間中存在類似潛在特征的實體向量對,我們可以得到知識圖譜中潛在的三元組關系。全息嵌入(Holographic Embedding,HolE)模型分別利用圓周相關計算三元組的組合表示及利用圓周卷積從組合表示中恢復出實體及關系的表示。與張量分解模型類似,HolE 可以獲得大量的實體交互來學習潛在關系,而且有效減少了訓練參數,提高了訓練效率。

基于圖特征模型的方法從知識圖譜中觀察到的三元組的邊的特征來預測一條可能的邊的存在。典型的方法有基于基于歸納邏輯程序(ILP)的方法,基于關聯規則挖掘(ARM)的方法和路徑排序(path ranking)的方法。基于 ILP 的方法和基于 ARM 的方法的共同之處在于通過挖掘的方法從知識圖譜中抽取一些規則,然后把這些規則應用到知識圖譜上,推出新的關系。而路徑排序方法則是根據兩個實體間連通路徑作為特征來判斷兩個實體是否屬于某個關系。

類型推理(typeinference)方法

知識圖譜上的類型推理目的是學習知識圖譜中的實例和概念之間的屬于關系。SDT利用三元組主語或謂語所連接屬性的統計分布以預測實例的類型。該方法可以用在任意單數據源的知識圖譜,但是無法做到跨數據集的類型推理。Tipalo與LHD均使用 DBpedia 中特有的 abstract 數據,利用特定模式進行實例類型的抽取。此類方法依賴于特定結構的文本數據,無法擴展到其他知識庫。

模式歸納(schemainduction)方法

模式歸納方法學習概念之間的關系,主要有基于 ILP 的方法和基于 ARM 的方法。ILP 結合了機器學習和邏輯編程技術,使得人們可以從實例和背景知識中獲得邏輯結論。Lehmann 等在中提出用向下精化算子學習描述邏輯的概念定義公理的方法,即從最一般的概念(即頂概念)開始,采用啟發式搜索方法使該概念不斷特殊化,最終得到概念的定義。為了處理像 DBpedia 這樣大規模的語義數據,該方法在中得到進一步的擴展。這些方法都在 DL-Learner中得以實現。V?lker 等人在中介紹了從知識圖譜中生成概念關系的統計方法,該方法通過 SPARQL 查詢來獲取信息,用以構建事務表。然后使用 ARM 技術從事務表中挖掘出一些相關聯的概念關系。在他們的后續工作中,使用負關聯規則挖掘技術學習不交概念關系,并在文獻中給出了豐富的試驗結果。

2 開放知識圖譜

本節首先介紹當前世界范圍內知名的高質量大規模開放知識圖譜,包括 DBpedia、Yago、Wikidata、BabelNet、ConceptNet以及Microsoft Concept Graph等,中文開放知識圖譜平臺 OpenKG。

2.1 開放知識圖譜

DBpedia 是一個大規模的多語言百科知識圖譜,可視為是維基百科的結構化版本。DBpedia 使用固定的模式對維基百科中的實體信息進行抽取,包括 abstract、infobox、category 和 page link 等信息。圖 2 示例了如何將維基百科中的實體“Busan”的 infobox 信息轉換成 RDF 三元組。DBpedia 目前擁有 127 種語言的超過兩千八百萬個實體與數億個 RDF 三元組,并且作為鏈接數據的核心,與許多其他數據集均存在實體映射關系。而根據抽樣評測[96],DBpedia 中 RDF 三元組的正確率達 88%。DBpedia 支持數據集的完全下載。

2.2 中文開放知識圖譜聯盟介紹

中文開放知識圖譜聯盟(OpenKG)旨在推動中文知識圖譜的開放與互聯,推動知識圖譜技術在中國的普及與應用,為中國人工智能的發展以及創新創業做出貢獻。聯盟已經搭建有 OpenKG.CN 技術平臺,如圖 5 所示,目前已有 35 家機構入駐。吸引了國內最著名知識圖譜資源的加入,如 Zhishi.me, CN-DBPedia, PKUBase。并已經包含了來自于常識、醫療、金融、城市、出行等 15 個類目的開放知識圖譜。

知識圖譜15條軍規:

1) 知識提取是投入很大的工作。因為周期長,反而更需要任務分解,化長期工作為若干可以短期交付的工作。

2)交付很重要。交付不一定要是最終的產品,盡可能思考是否可以可以把中間階段變成可用的。按周為單位交付。

3)越是長期的工程,越需要在團隊溝通上下功夫。及時通知團隊成員已可交付模塊的變化。

4)保持一個交付的心態。不僅對外交付,對內部也要交付。 聯調系統就是交付的檢查器。

5)保持工作不發霉最好的辦法是曬。越是長期的工作,越要有意識地經常拿出來曬。

6)在線 Demo 是低成本溝通的好辦法。

7)可視化工作的進度,并讓所有的人都看到。

8)保存提取的中間產物:原始文件,富文本格式,text格式,段落篇章,Meme 提取,實體,標簽……

9)不要用 RDF,或者三元組。那會帶來演進的噩夢

10)保持提取出來的數據的可讀性。保持合理的粒度的組織,不要分得太細,但也不要太大。如果原始數據可讀性不好,多做一些自己用的工具來提升其可讀性,如縮進、語法高亮、表格化、導出為 csv 等。數據可讀性是數據debug的關鍵之一。

11)觀察數據,不怕麻煩。知識提取是水磨功夫。牛人的能力往往就是掌握了快速觀察的方法。

12)從第一分鐘開始就寫回歸測試。寫測試是節約開發時間,不是浪費時間。測試代碼比提取代碼還多是正常。測試提供反饋。

13)提取和測試,先寫單線程,再多線程并發。寫單線程的時候就考慮到數據可能會并發處理。隊列方法可能簡化處理架構。

14)盡可能避免問題大數據化。盡量避免分布式處理。先盡可能scale up,而后scale out。

15)適應沒有標注數據、Golden standard。如果沒有標準答案,可以試著用兩種(或更多)不同的算法去解決同一個問題,然后比較結果是不是一致。不要等有標準答案。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,533評論 6 531
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,055評論 3 414
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 175,365評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,561評論 1 307
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,346評論 6 404
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 54,889評論 1 321
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 42,978評論 3 439
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,118評論 0 286
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,637評論 1 333
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,558評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,739評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,246評論 5 355
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 43,980評論 3 346
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,362評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,619評論 1 280
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,347評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,702評論 2 370

推薦閱讀更多精彩內容