一網打盡——學術知識圖譜


? ??科學計量學是一門以科學自身為研究對象進行定量研究的學科。這門學科借助科學科學計量學指標,運用數學方法計量科學研究的成果、描述科學體系的結構、分析科學系統的內在運行機制,及時科學發展的時空特征,也探討在整個社會大背景之下科學活動的定量規律性。自60年代初創立至今,科學計量學已被廣泛應用于科研主體實力考察、學術期刊質量評估、科技發展規劃制定以及科學基金項目管理等許多方面。

? ? 在科學計量學的研究過程中,創建了大量的實用工具,例如,Scopus、Semantic Scholars、AMiner等等,而支撐這些工具的后臺數據往往以知識圖譜(本體)形式表示。因此,隨著科學計量學的發展,產生了大量的學術知識圖譜,極大地推動了該領域的發展。下面,將對學術領域的知識圖譜進行匯總,以便新進研究者進行快速理解。


學術圖譜目錄

1. Aminer,包含作者、文獻、機構等

2. MAG,包含作者、文獻、機構等

3. OAG,包含作者、文獻、機構、領域、學術活動等

4.?AceKG,包含作者、文獻、機構、領域、學術活動等

5.?TechKG,包含標題、作者、機構、關鍵詞、摘要等

6.?S2ORC,包含作者、文獻、標題、摘要、圖片標題、表格標題、公式、表格內容、引用描述等

7.?SWRC,包含作者、機構、領域、項目、文獻等

8.?SPAR,包含FaBio、CTO、BiRO、C4O、DoCO、PSO、PRO、PWO、DEO、SCoRO、FRAPO、BiDO、Five*等多個子本體結構

9. Scopus,包含作者、文獻、摘要、關鍵詞等

10.?OpenCitation,內容為SPAR的子集

11. Semantic Scholar,包含作者、文獻、學術活動等

12. Dimensions,包含作者、機構、出版社、資助機構等等

13. SKGO,包含SemSur、PhySci、PharmSci、ModSci四個較為詳細的子本體

14.?ORKG

15.?RASH,撰寫科技論文的標記語言,直接把論文內容結構化

16.?CS-KG,包含任務、方法、指標等內容數據

17.?AIDA,用于學術界-工業界對接,包含作者、機構、文獻、專利等信息


Aminer


Aminer 本體結構

????AMiner是由清華大學計算機科學與技術系教授唐杰率領團隊建立的,具有完全自主知識產權的新一代科技情報分析與挖掘平臺。AMiner平臺以科研人員、科技文獻、學術活動三大類數據為基礎,構建三者之間的關聯關系,深入分析挖掘,面向全球科研機構及相關工作人員,提供學者、論文文獻等學術信息資源檢索以及面向科技文獻、專利和科技新聞的語義搜索、語義分析、成果評價等知識服務。后臺數據包含1.55億篇學術論文

網址:https://www.aminer.cn/

論文:Huaiyu Wan, Yutao Zhang, Jing Zhang, Jie Tang; AMiner: Search and Mining of Academic Social Networks.?Data Intelligence?2019; 1 (1): 58–76.


MAG-Microsoft Academic Graph

MAG 本體結構

? ??MAG是一個異構圖,包含科學出版記錄,這些出版物之間的引用關系,以及作者,機構,期刊,會議和研究領域等,總共包含1.66億學術論文

網址:https://www.microsoft.com/en-us/research/project/microsoft-academic-graph/

論文:Arnab Sinha,?Zhihong Shen,?Yang Song,?Hao Ma,?Darrin Eide,?Bo-June (Paul) Hsu,?Kuansan Wang;An Overview of Microsoft Academic Service (MAS) and Applications.?Proceedings of the 24th International Conference on World Wide Web, May 2015, Pages 243–246


OAG-Open Academic Graph

????它是將Microsoft Academic Graph 和 Aminer進行對齊之后得到的并集合。完成了64,639,608次對齊。

網址:https://www.aminer.cn/open-academic-graph

論文:Zhang, Fanjin Li, Rui Wang, Kuansan Liu, Xiao Tang, Jie Yuxiao, Dong Yao, Peiran Zhang, Jie Gu, Xiaotao Wang, Yan Shao, Bin. OAG: Toward Linking Large-scale Heterogeneous Entity Graphs. ?Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, July 2019, Pages 2585–2595


AceKG

AceKG 本體結構

????上海交通大學王新兵教授和張偉楠教授指導的 Acemap團隊知識圖譜小組發布了學術知識圖譜AceKG。在圖譜數據基礎上,構建了鏈接預測等任務,方便研究者開展相關研究工作。AceKG描述了超過1億個學術實體、22億條三元組信息,涵蓋了全面的學術信息。具體而言,AceKG包含了61,704,089篇paper、52,498,428位學者、50,233個研究領域、19,843個學術研究機構、22,744個學術期刊、1,278個學術會議以及3個學術聯盟(如C9聯盟)

網址:http://acemap.sjtu.edu.cn/app/AceKG/

論文:Wang, Ruijie Yan, Yuchen Wang, Jialu Jia, Yuting Zhang, Ye Zhang, Weinan Wang, Xinbing. AceKG: A Large-scale Knowledge Graph for Academic Data Mining.?Proceedings of the 27th ACM International Conference on Information and Knowledge Management, October 2018, Pages 1487–1490


TechKG

????TechKG?是一個面向中文、面向學術、多領域的大型知識圖譜知識庫,知識庫由“東北大學-知識圖譜研究組”開發完成。TechKG?共包含大約?5?千萬個實體(包含標題、作者、作者單位、關鍵詞、摘要)、以及?2.6?億個三元組。TechKG?的數據共分為?38?個研究領域,每個研究領域對應一個學科。

網址:http://www.techkg.cn/

論文:Ren, Feiliang, Yining Hou, Yan Li, Lingfeng Pan, Yi Zhang, Xiaobo Liang, Yongkang Liu, Yu Guo, Rongsheng Zhao, Ruicheng Ming and Huiming Wu. “TechKG: A Large-Scale Chinese Technology-Oriented Knowledge Graph.”?ArXiv?abs/1812.06722 (2018):?


S2ORC

S2ORC 本體結構

? ??S2ORC由8110萬篇論文和3.805億個引用關系組成。其中810萬篇PDF格式論文和150萬篇LATEX格式論文包含全文信息,幫助我們增加了章節信息、引用提及以及圖表信息。S2ORC具體包括,論文題目、作者、摘要、章節正文(包含章節標題)、圖片標題、表格標題、公式、表格內容、頁眉、頁腳、引用描述(包含在摘要和正文中)、解析后的參考文獻、引用描述與參考文獻之間的對應關系。

論文:Lo, Kyle, Lucy Lu Wang, Mark Neumann, Rodney Michael Kinney and Daniel S. Weld. “S2ORC: The Semantic Scholar Open Research Corpus.”?ACL?(2020).


SWRC

SWRC 本體結構

網址:http://ontoware.org/projects/swrc/

論文:Sure-Vetter, York, Stephan Bloehdorn, Peter Haase, Jens Hartmann and Daniel Oberle. “The SWRC Ontology - Semantic Web for Research Communities.”?EPIA?(2005).


SPAR

SPAR 總體結構

? ??SPAR本體是用干描述出版領域的本體,它為語義出版和引文提供了一套可以機讀的RDF元數據集,包括文檔的描述,文獻目錄識別,引文的類型和相關內容,書目引文,文檔的部分及狀態,個體的角色及責獻,文獻計量學數據及工作流程。SPAR本體包括下述子本體FaBiO是用干描述出版或者潛在出版實體的本體;CTO是一種引文本體,用來描述引文的特性及類型,并允許標注者標記引文鏈接和引用意多;BiRO是用干描述書目記錄及參考文獻的本體;C4O是用干描述參考文獻引文的本體,如文本內部參考文南指針,文本被引用文獻引用的次數等;DoCO提供了文檔結構元素的詞表,如段落,節或列表等;PSO是用干描述文件出版狀態或者出版過程中不同階段的出版實體的本體,如提交、審稿中,拒稿,接收等;PRO是用于描述個體出版過程中(如作者、編輯、評審等)的角色的本體;PWO是用于描述出版實體在出版過程中的步驟的本體,如文章在審稿中、印刷、發表等;DEO為文件中的修飾元素提供了一個結構化的詞表,如引言、討論、致謝、參考文獻列表、附錄等;SCoRO是用于描述學術貢獻及角色的本體FRAPO是用干描述研究項目信息的本體,如撥款申請,資助機構,項目合作者等;BiDO是用干描述文獻數據中數字和分類的模塊本體,如期刊影響因子,作者H-指數,研究類型分類等:Five*是描述網絡期刊文章中五種屬性的本體。對干描述學術資源的數據的規范,學術文獻語義標注本體可在繼承現有元數據和標注本體的基礎上加以擴展。

網址:http://www.sparontologies.net/ontologies

論文:Peroni, S., Shotton, D. (2018). The SPAR Ontologies. In Proceedings of the 17th International Semantic Web Conference (ISWC 2018): 119-136.?


Scopus

Scopus 內容結構

????Scopus數據庫是目前全球規模最大的摘要和引文(A&I)數據庫,涵蓋了四大門類27個學科領域,15000余種科學、技術及醫學方面的期刊,如Elsevier、Springer、Nature等等。還收錄了不少重要的中文期刊,如:《計算機學報》、《力學學報》、《中國物理快報》、《中華醫學雜志》。數據庫的 10% 以上由會議論文(超過 950 萬篇)組成,其中 250 萬篇發表在期刊、叢書和其他來源中。 其余 700萬篇發表在會議論文集中。具體包含:Document types, Abstracts, Keywords and index terms, cited references, affiliation data, Author profiles, ORCID integration, 等等

網址:https://www.scopus.com/

論文:??


OpenCitation

Open Citation Data Model (OCDM)

? ??OpenCitation類似于Web of Science 和Elsevier's Scopus,以文獻之間的引用關系數據為支撐,提供引文查詢等相關服務。其后臺數據結構——Open Citation Data Model (OCDM)用于對所有文獻資源以及它們之間的引用關系。其中黃色矩形定義數據模型允許描述的對象類,它們的屬性用綠色箭頭定義,對象類與其他實體的關系則用藍色箭頭建模。OCDM主要參照SPAR本體結構,主要包含的信息如下:fabio:Expression:已發表的文獻資源,這些資源引用或被其他已發表的文獻資源引用,或者包含引用/引用實體(例如,包含文章的期刊或包含章節的書籍);fabio:Manifestation:文獻資源的收錄,定義了提供文獻資源的出處;biro:BibliographicReference:通常出現在引用文獻資源實體的參考文獻列表中,指向另一個文獻資源。通常在引用文獻資源實體的正文中,一次或多次引用;foaf:Agent:相關代理,指與文獻資源具有特定關聯的個人或組織。例如,論文或書籍的作者,或期刊的出版商;pro:RoleInTime:角色,指代理對于特定文獻資源中扮演的角色。例如,一篇文獻的作者或一本書的編輯等等;cito:Citation:引用,兩篇文獻資源之間的引用關系;datacite:Identifier:與文獻資源實體關聯的外部標識符。例如,DOI、ORCID、PubMedID、OCI等等。

網址:http://opencitations.net

論文:Marilena Daquino, Silvio Peroni, David Shotton, Giovanni Colavizza, Benham Ghavimi, Anne Lauscher, Philipp Mayr, Matteo Romanello, Philipp Zumstein. The OpenCitations Data Model. In Proceedings of the 20th International Semantic Web Conference (ISWC 2020)


Semantic Scholar

????Semantic Scholar是一款免費學術搜索引擎,由微軟聯合創始人Paul Allen旗下的艾倫人工智能研究所在2015年11月2日發布,目標是「cut through the clutter」,幫助科研用戶從浩如煙海的文獻中快速篩選有用信息,減少檢索時間,提升工作效率。后臺數據包含authors、papers、citations、venues等等數據的支持。Semantic Scholar可以從文獻文本中挑選出最重要的關鍵詞或短語,確定文獻的研究主題,也可以從文獻中提取圖表,呈現在文獻檢索頁面,能夠幫助使用者快速理解文獻的主要內容。對于科學研究人員來說,Semantic Scholar 的較大用處是可以幫助他們快速獲得重要文獻,因為該引擎可以辨別一篇文章引用的參考文獻是否具有重要的參考價值。

網址:https://www.semanticscholar.org

論文:??


Dimensions

Deminsions 后臺數據結構

? ??Dimensions為研究人員、科研機構、政府資助部門、出版社、藥物學、化學工業、企業研發等不同機構和領域產品和工具被公共、非營利和私營部門的研究人員和組織用于發現、訪問和分析從想法到影響的研究數據。后臺數據包括出版物、資助、臨床試驗、專利、數據集或政策文件等信息,以及它們與機構、研究員以及它們之間的關聯關系。

網址:https://www.dimensions.ai/

論文:Herzog, Christian, Daniel Hook and Stacy Konkiel. “Dimensions: Bringing down barriers between scientometricians and data.”?Quantitative Science Studies?1 (2020): 387-395.


SKGO-Science Knowledge Graph Ontologies

? ? SKGO,是一套OWL本體模型,通過分析出版物獲取科學研究數據的知識。SKGO包含四個本體模型,分別是SemSur for Computer Science, PhySci for Physics, PharmSci for Pharmaceutical science以及ModSci for Moden Science Ontology。

????其中ModSci是其它三個本體的上層概念,包含如下頂層概念:Moden Science,是對于構建和組織對宇宙可驗證、可解釋和可預測的知識體系的一種系統性的努力;Scientific Discovery,是一次成功的科學探究的過程或產物,可以是一個事物、或一次事件,也可以是某些性質、理論或一個假設;Phenomenon,被觀測到的、發生的或存在的事務;Applications of Science,指將科學知識應用于特定目標的過程,例如,用于設計產品、工藝或醫療,開發新技術或預測人類行為的影響等等;Scientific Organization,指通過科學研究促進特定領域發展的組織機構;Scientist,指進行科學研究以推進感興趣領域的知識的人;Scientific Instrument,是用于特定目的的科學實驗中的設備或工具,例如用于測量電路中電流的電流表。

????以ModSci為基礎,擴展的三個本體的概念類型更加豐富。以計算機領域的SemSur為例,包含如下概念:出版物 , 項目 , 方法 , 算法, 附錄, 框架,? 文檔, 評估方法, 評估, 組織, 人, 摘要, 研究主題, 研究項目, 員工, 開發項目, 復雜性, 工具箱, 實驗分類, 科學實驗, 實驗結果,? 實驗設計, 實驗要求, 實驗目標, 實驗性抑制, 實驗模型, 模型, 領域模型, 問卷, 模擬軟件, 挑戰, 極限,正面觀點。

網址:https://github.com/saidfathalla/Science-knowledge-graph-ontologies

論文:Said Fathalla, S?ren Auer, and Christoph Lange. Towards the semantic formalization of science. In Proceedings of the 35th Annual ACM Symposium on Applied Computing (SAC '20). Association for Computing Machinery, New York, NY, USA, 2057–2059.


ORKG-Open Research Knowledge Graph?

? ??ORKG旨在以結構化的方式描述研究論文,使科學知識成為人類和機器可操作信息,從而以全新的方式輔助研究人員找到其關心的研究領域的相關現狀,形成最新的對比和結論。通過ORKG,科學家可以以全新的方式探索知識,并跨不同學科分享結果。

網址:http://orkg.org

論文:Jaradeh, Mohamad Yaser, Allard Oelen, Kheir Eddine Farfar, Manuel Prinz, Jennifer D'Souza, Gábor Kismihók, Markus Stocker and S. Auer. “Open Research Knowledge Graph: Next Generation Infrastructure for Semantic Scholarly Knowledge.”?Proceedings of the 10th International Conference on Knowledge Capture?(2019)


RASH-Research Articles in Simplified HTML

????RASH是用于撰寫科技論文的標記語言(HTML子集)。RASH標記語言基礎上,還提供一套規范化、撰寫、轉換和提取工具。因此,使用RASH撰寫的論文就無須額外的分析過程,就能夠生成對應的科學圖譜了。

網址:https://github.com/essepuntato/rash

論文:Peroni, S., Osborne, F., Di Iorio, A., Nuzzolese, A. G., Poggi, F., Vitali, F., Motta, E. (2017). Research Articles in Simplified HTML: a Web-first format for HTML-based scholarly articles. PeerJ Computer Science 3: e132. e2513.


CS-KG-Computer Science Knowledge Graph


? ??CS-KG(包含AI-KG)是自動生成的大規模知識圖,通過分析670萬篇文章,生成了4100萬個事實描述和3.5億個RDF三元組。3.5億三元組由1000萬個實體(任務、方法、指標等)之間的179種語義關系構成。CS-KG提供各種智能服務,用于分析和理解研究動態,支持研究人員的日常工作,并輔助資助機構和研究政策制定者的完成合理決策。

鏈接:http://w3id.org/cskg

論文:

Danilo Dessì, Francesco Osborne, Diego Reforgiato Recupero, Davide Buscaldi, Enrico Motta. (2021) Generating Knowledge Graphs by Employing Natural Language Processing and Machine Learning Techniques within the Scholarly Domain. Future Generation Computer Systems 2021.

Danilo Dessì, Francesco Osborne, Diego Reforgiato Recupero, Davide Buscaldi, Enrico Motta, Harald Sack. (2020)AI-KG: an Automatically Generated Knowledge Graph of Artificial Intelligence . International Semantic Web Conference 2020.


AIDA KG-Academia Idustry DynAmics Knowledge Graph

AIDA KG 本體結構

????學術界和工業界有著復雜的、多方面的和共生的關系。分析他們之間的知識流動,發現具有潛力的轉化方向,并進行雙方的準確對接是各方努力的方向。學術界的論文和產業界的專利是解決產學研融合的重要媒介。對此,構建了AIDA-KG,它根據Computer Science Ontology(CSO)中給出的研究主題,分析了2100萬篇論文和800萬項專利。對其中的510萬篇論文和560萬項專利進行進一步分析,給出了作者的隸屬關系(author's affiliations)和對應工業部門(Industrial Sectors)信息。工業部門信息參考的Industrial Sectors Ontology (INDUSO)。? ? AIDA-KG集成了來自微軟MAG、Demensions、English DBpedia、CSO和Global Research Identifier Database (GRID)的數據,生成了包含2.42億篇論文、3800萬項專利、458萬個實體、1.4萬個研究主題和9.7萬個機構的知識圖譜。

網址:https://w3id.org/aida

論文:Simone Angioni, Angelo Salatino, Francesco Osborne, Diego Reforgiato Recupero, and Enrico Motta. AIDA: a Knowledge Graph about Research Dynamics in Academia and Industry. Quantitative Science Studies 2022; 2 (4): 1356–1398.


初來乍到,希望得到各位同仁的批評與指正。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,401評論 6 531
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,011評論 3 413
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 175,263評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,543評論 1 307
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,323評論 6 404
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 54,874評論 1 321
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 42,968評論 3 439
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,095評論 0 286
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,605評論 1 331
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,551評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,720評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,242評論 5 355
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 43,961評論 3 345
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,358評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,612評論 1 280
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,330評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,690評論 2 370

推薦閱讀更多精彩內容