? ??科學計量學是一門以科學自身為研究對象進行定量研究的學科。這門學科借助科學科學計量學指標,運用數學方法計量科學研究的成果、描述科學體系的結構、分析科學系統的內在運行機制,及時科學發展的時空特征,也探討在整個社會大背景之下科學活動的定量規律性。自60年代初創立至今,科學計量學已被廣泛應用于科研主體實力考察、學術期刊質量評估、科技發展規劃制定以及科學基金項目管理等許多方面。
? ? 在科學計量學的研究過程中,創建了大量的實用工具,例如,Scopus、Semantic Scholars、AMiner等等,而支撐這些工具的后臺數據往往以知識圖譜(本體)形式表示。因此,隨著科學計量學的發展,產生了大量的學術知識圖譜,極大地推動了該領域的發展。下面,將對學術領域的知識圖譜進行匯總,以便新進研究者進行快速理解。
學術圖譜目錄
1. Aminer,包含作者、文獻、機構等
2. MAG,包含作者、文獻、機構等
3. OAG,包含作者、文獻、機構、領域、學術活動等
4.?AceKG,包含作者、文獻、機構、領域、學術活動等
5.?TechKG,包含標題、作者、機構、關鍵詞、摘要等
6.?S2ORC,包含作者、文獻、標題、摘要、圖片標題、表格標題、公式、表格內容、引用描述等
7.?SWRC,包含作者、機構、領域、項目、文獻等
8.?SPAR,包含FaBio、CTO、BiRO、C4O、DoCO、PSO、PRO、PWO、DEO、SCoRO、FRAPO、BiDO、Five*等多個子本體結構
9. Scopus,包含作者、文獻、摘要、關鍵詞等
10.?OpenCitation,內容為SPAR的子集
11. Semantic Scholar,包含作者、文獻、學術活動等
12. Dimensions,包含作者、機構、出版社、資助機構等等
13. SKGO,包含SemSur、PhySci、PharmSci、ModSci四個較為詳細的子本體
14.?ORKG
15.?RASH,撰寫科技論文的標記語言,直接把論文內容結構化
16.?CS-KG,包含任務、方法、指標等內容數據
17.?AIDA,用于學術界-工業界對接,包含作者、機構、文獻、專利等信息
Aminer
????AMiner是由清華大學計算機科學與技術系教授唐杰率領團隊建立的,具有完全自主知識產權的新一代科技情報分析與挖掘平臺。AMiner平臺以科研人員、科技文獻、學術活動三大類數據為基礎,構建三者之間的關聯關系,深入分析挖掘,面向全球科研機構及相關工作人員,提供學者、論文文獻等學術信息資源檢索以及面向科技文獻、專利和科技新聞的語義搜索、語義分析、成果評價等知識服務。后臺數據包含1.55億篇學術論文
網址:https://www.aminer.cn/
論文:Huaiyu Wan, Yutao Zhang, Jing Zhang, Jie Tang; AMiner: Search and Mining of Academic Social Networks.?Data Intelligence?2019; 1 (1): 58–76.
MAG-Microsoft Academic Graph
? ??MAG是一個異構圖,包含科學出版記錄,這些出版物之間的引用關系,以及作者,機構,期刊,會議和研究領域等,總共包含1.66億學術論文
網址:https://www.microsoft.com/en-us/research/project/microsoft-academic-graph/
論文:Arnab Sinha,?Zhihong Shen,?Yang Song,?Hao Ma,?Darrin Eide,?Bo-June (Paul) Hsu,?Kuansan Wang;An Overview of Microsoft Academic Service (MAS) and Applications.?Proceedings of the 24th International Conference on World Wide Web, May 2015, Pages 243–246
OAG-Open Academic Graph
????它是將Microsoft Academic Graph 和 Aminer進行對齊之后得到的并集合。完成了64,639,608次對齊。
網址:https://www.aminer.cn/open-academic-graph
論文:Zhang, Fanjin Li, Rui Wang, Kuansan Liu, Xiao Tang, Jie Yuxiao, Dong Yao, Peiran Zhang, Jie Gu, Xiaotao Wang, Yan Shao, Bin. OAG: Toward Linking Large-scale Heterogeneous Entity Graphs. ?Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, July 2019, Pages 2585–2595
AceKG
????上海交通大學王新兵教授和張偉楠教授指導的 Acemap團隊知識圖譜小組發布了學術知識圖譜AceKG。在圖譜數據基礎上,構建了鏈接預測等任務,方便研究者開展相關研究工作。AceKG描述了超過1億個學術實體、22億條三元組信息,涵蓋了全面的學術信息。具體而言,AceKG包含了61,704,089篇paper、52,498,428位學者、50,233個研究領域、19,843個學術研究機構、22,744個學術期刊、1,278個學術會議以及3個學術聯盟(如C9聯盟)。
網址:http://acemap.sjtu.edu.cn/app/AceKG/
論文:Wang, Ruijie Yan, Yuchen Wang, Jialu Jia, Yuting Zhang, Ye Zhang, Weinan Wang, Xinbing. AceKG: A Large-scale Knowledge Graph for Academic Data Mining.?Proceedings of the 27th ACM International Conference on Information and Knowledge Management, October 2018, Pages 1487–1490
TechKG
????TechKG?是一個面向中文、面向學術、多領域的大型知識圖譜知識庫,知識庫由“東北大學-知識圖譜研究組”開發完成。TechKG?共包含大約?5?千萬個實體(包含標題、作者、作者單位、關鍵詞、摘要)、以及?2.6?億個三元組。TechKG?的數據共分為?38?個研究領域,每個研究領域對應一個學科。
網址:http://www.techkg.cn/
論文:Ren, Feiliang, Yining Hou, Yan Li, Lingfeng Pan, Yi Zhang, Xiaobo Liang, Yongkang Liu, Yu Guo, Rongsheng Zhao, Ruicheng Ming and Huiming Wu. “TechKG: A Large-Scale Chinese Technology-Oriented Knowledge Graph.”?ArXiv?abs/1812.06722 (2018):?
S2ORC
? ??S2ORC由8110萬篇論文和3.805億個引用關系組成。其中810萬篇PDF格式論文和150萬篇LATEX格式論文包含全文信息,幫助我們增加了章節信息、引用提及以及圖表信息。S2ORC具體包括,論文題目、作者、摘要、章節正文(包含章節標題)、圖片標題、表格標題、公式、表格內容、頁眉、頁腳、引用描述(包含在摘要和正文中)、解析后的參考文獻、引用描述與參考文獻之間的對應關系。
論文:Lo, Kyle, Lucy Lu Wang, Mark Neumann, Rodney Michael Kinney and Daniel S. Weld. “S2ORC: The Semantic Scholar Open Research Corpus.”?ACL?(2020).
SWRC
網址:http://ontoware.org/projects/swrc/
論文:Sure-Vetter, York, Stephan Bloehdorn, Peter Haase, Jens Hartmann and Daniel Oberle. “The SWRC Ontology - Semantic Web for Research Communities.”?EPIA?(2005).
SPAR
? ??SPAR本體是用干描述出版領域的本體,它為語義出版和引文提供了一套可以機讀的RDF元數據集,包括文檔的描述,文獻目錄識別,引文的類型和相關內容,書目引文,文檔的部分及狀態,個體的角色及責獻,文獻計量學數據及工作流程。SPAR本體包括下述子本體:FaBiO是用干描述出版或者潛在出版實體的本體;CTO是一種引文本體,用來描述引文的特性及類型,并允許標注者標記引文鏈接和引用意多;BiRO是用干描述書目記錄及參考文獻的本體;C4O是用干描述參考文獻引文的本體,如文本內部參考文南指針,文本被引用文獻引用的次數等;DoCO提供了文檔結構元素的詞表,如段落,節或列表等;PSO是用干描述文件出版狀態或者出版過程中不同階段的出版實體的本體,如提交、審稿中,拒稿,接收等;PRO是用于描述個體出版過程中(如作者、編輯、評審等)的角色的本體;PWO是用于描述出版實體在出版過程中的步驟的本體,如文章在審稿中、印刷、發表等;DEO為文件中的修飾元素提供了一個結構化的詞表,如引言、討論、致謝、參考文獻列表、附錄等;SCoRO是用于描述學術貢獻及角色的本體FRAPO是用干描述研究項目信息的本體,如撥款申請,資助機構,項目合作者等;BiDO是用干描述文獻數據中數字和分類的模塊本體,如期刊影響因子,作者H-指數,研究類型分類等:Five*是描述網絡期刊文章中五種屬性的本體。對干描述學術資源的數據的規范,學術文獻語義標注本體可在繼承現有元數據和標注本體的基礎上加以擴展。
網址:http://www.sparontologies.net/ontologies
論文:Peroni, S., Shotton, D. (2018). The SPAR Ontologies. In Proceedings of the 17th International Semantic Web Conference (ISWC 2018): 119-136.?
Scopus
????Scopus數據庫是目前全球規模最大的摘要和引文(A&I)數據庫,涵蓋了四大門類27個學科領域,15000余種科學、技術及醫學方面的期刊,如Elsevier、Springer、Nature等等。還收錄了不少重要的中文期刊,如:《計算機學報》、《力學學報》、《中國物理快報》、《中華醫學雜志》。數據庫的 10% 以上由會議論文(超過 950 萬篇)組成,其中 250 萬篇發表在期刊、叢書和其他來源中。 其余 700萬篇發表在會議論文集中。具體包含:Document types, Abstracts, Keywords and index terms, cited references, affiliation data, Author profiles, ORCID integration, 等等
網址:https://www.scopus.com/
論文:??
OpenCitation
? ??OpenCitation類似于Web of Science 和Elsevier's Scopus,以文獻之間的引用關系數據為支撐,提供引文查詢等相關服務。其后臺數據結構——Open Citation Data Model (OCDM)用于對所有文獻資源以及它們之間的引用關系。其中黃色矩形定義數據模型允許描述的對象類,它們的屬性用綠色箭頭定義,對象類與其他實體的關系則用藍色箭頭建模。OCDM主要參照SPAR本體結構,主要包含的信息如下:fabio:Expression:已發表的文獻資源,這些資源引用或被其他已發表的文獻資源引用,或者包含引用/引用實體(例如,包含文章的期刊或包含章節的書籍);fabio:Manifestation:文獻資源的收錄,定義了提供文獻資源的出處;biro:BibliographicReference:通常出現在引用文獻資源實體的參考文獻列表中,指向另一個文獻資源。通常在引用文獻資源實體的正文中,一次或多次引用;foaf:Agent:相關代理,指與文獻資源具有特定關聯的個人或組織。例如,論文或書籍的作者,或期刊的出版商;pro:RoleInTime:角色,指代理對于特定文獻資源中扮演的角色。例如,一篇文獻的作者或一本書的編輯等等;cito:Citation:引用,兩篇文獻資源之間的引用關系;datacite:Identifier:與文獻資源實體關聯的外部標識符。例如,DOI、ORCID、PubMedID、OCI等等。
網址:http://opencitations.net
論文:Marilena Daquino, Silvio Peroni, David Shotton, Giovanni Colavizza, Benham Ghavimi, Anne Lauscher, Philipp Mayr, Matteo Romanello, Philipp Zumstein. The OpenCitations Data Model. In Proceedings of the 20th International Semantic Web Conference (ISWC 2020)
Semantic Scholar
????Semantic Scholar是一款免費學術搜索引擎,由微軟聯合創始人Paul Allen旗下的艾倫人工智能研究所在2015年11月2日發布,目標是「cut through the clutter」,幫助科研用戶從浩如煙海的文獻中快速篩選有用信息,減少檢索時間,提升工作效率。后臺數據包含authors、papers、citations、venues等等數據的支持。Semantic Scholar可以從文獻文本中挑選出最重要的關鍵詞或短語,確定文獻的研究主題,也可以從文獻中提取圖表,呈現在文獻檢索頁面,能夠幫助使用者快速理解文獻的主要內容。對于科學研究人員來說,Semantic Scholar 的較大用處是可以幫助他們快速獲得重要文獻,因為該引擎可以辨別一篇文章引用的參考文獻是否具有重要的參考價值。
網址:https://www.semanticscholar.org
論文:??
Dimensions
? ??Dimensions為研究人員、科研機構、政府資助部門、出版社、藥物學、化學工業、企業研發等不同機構和領域產品和工具被公共、非營利和私營部門的研究人員和組織用于發現、訪問和分析從想法到影響的研究數據。后臺數據包括出版物、資助、臨床試驗、專利、數據集或政策文件等信息,以及它們與機構、研究員以及它們之間的關聯關系。
網址:https://www.dimensions.ai/
論文:Herzog, Christian, Daniel Hook and Stacy Konkiel. “Dimensions: Bringing down barriers between scientometricians and data.”?Quantitative Science Studies?1 (2020): 387-395.
SKGO-Science Knowledge Graph Ontologies
? ? SKGO,是一套OWL本體模型,通過分析出版物獲取科學研究數據的知識。SKGO包含四個本體模型,分別是SemSur for Computer Science, PhySci for Physics, PharmSci for Pharmaceutical science以及ModSci for Moden Science Ontology。
????其中ModSci是其它三個本體的上層概念,包含如下頂層概念:Moden Science,是對于構建和組織對宇宙可驗證、可解釋和可預測的知識體系的一種系統性的努力;Scientific Discovery,是一次成功的科學探究的過程或產物,可以是一個事物、或一次事件,也可以是某些性質、理論或一個假設;Phenomenon,被觀測到的、發生的或存在的事務;Applications of Science,指將科學知識應用于特定目標的過程,例如,用于設計產品、工藝或醫療,開發新技術或預測人類行為的影響等等;Scientific Organization,指通過科學研究促進特定領域發展的組織機構;Scientist,指進行科學研究以推進感興趣領域的知識的人;Scientific Instrument,是用于特定目的的科學實驗中的設備或工具,例如用于測量電路中電流的電流表。
????以ModSci為基礎,擴展的三個本體的概念類型更加豐富。以計算機領域的SemSur為例,包含如下概念:出版物 , 項目 , 方法 , 算法, 附錄, 框架,? 文檔, 評估方法, 評估, 組織, 人, 摘要, 研究主題, 研究項目, 員工, 開發項目, 復雜性, 工具箱, 實驗分類, 科學實驗, 實驗結果,? 實驗設計, 實驗要求, 實驗目標, 實驗性抑制, 實驗模型, 模型, 領域模型, 問卷, 模擬軟件, 挑戰, 極限,正面觀點。
網址:https://github.com/saidfathalla/Science-knowledge-graph-ontologies
論文:Said Fathalla, S?ren Auer, and Christoph Lange. Towards the semantic formalization of science. In Proceedings of the 35th Annual ACM Symposium on Applied Computing (SAC '20). Association for Computing Machinery, New York, NY, USA, 2057–2059.
ORKG-Open Research Knowledge Graph?
? ??ORKG旨在以結構化的方式描述研究論文,使科學知識成為人類和機器可操作信息,從而以全新的方式輔助研究人員找到其關心的研究領域的相關現狀,形成最新的對比和結論。通過ORKG,科學家可以以全新的方式探索知識,并跨不同學科分享結果。
網址:http://orkg.org
論文:Jaradeh, Mohamad Yaser, Allard Oelen, Kheir Eddine Farfar, Manuel Prinz, Jennifer D'Souza, Gábor Kismihók, Markus Stocker and S. Auer. “Open Research Knowledge Graph: Next Generation Infrastructure for Semantic Scholarly Knowledge.”?Proceedings of the 10th International Conference on Knowledge Capture?(2019)
RASH-Research Articles in Simplified HTML
????RASH是用于撰寫科技論文的標記語言(HTML子集)。RASH標記語言基礎上,還提供一套規范化、撰寫、轉換和提取工具。因此,使用RASH撰寫的論文就無須額外的分析過程,就能夠生成對應的科學圖譜了。
網址:https://github.com/essepuntato/rash
論文:Peroni, S., Osborne, F., Di Iorio, A., Nuzzolese, A. G., Poggi, F., Vitali, F., Motta, E. (2017). Research Articles in Simplified HTML: a Web-first format for HTML-based scholarly articles. PeerJ Computer Science 3: e132. e2513.
CS-KG-Computer Science Knowledge Graph
? ??CS-KG(包含AI-KG)是自動生成的大規模知識圖,通過分析670萬篇文章,生成了4100萬個事實描述和3.5億個RDF三元組。3.5億三元組由1000萬個實體(任務、方法、指標等)之間的179種語義關系構成。CS-KG提供各種智能服務,用于分析和理解研究動態,支持研究人員的日常工作,并輔助資助機構和研究政策制定者的完成合理決策。
鏈接:http://w3id.org/cskg
論文:
Danilo Dessì, Francesco Osborne, Diego Reforgiato Recupero, Davide Buscaldi, Enrico Motta. (2021) Generating Knowledge Graphs by Employing Natural Language Processing and Machine Learning Techniques within the Scholarly Domain. Future Generation Computer Systems 2021.
Danilo Dessì, Francesco Osborne, Diego Reforgiato Recupero, Davide Buscaldi, Enrico Motta, Harald Sack. (2020)AI-KG: an Automatically Generated Knowledge Graph of Artificial Intelligence . International Semantic Web Conference 2020.
AIDA KG-Academia Idustry DynAmics Knowledge Graph
????學術界和工業界有著復雜的、多方面的和共生的關系。分析他們之間的知識流動,發現具有潛力的轉化方向,并進行雙方的準確對接是各方努力的方向。學術界的論文和產業界的專利是解決產學研融合的重要媒介。對此,構建了AIDA-KG,它根據Computer Science Ontology(CSO)中給出的研究主題,分析了2100萬篇論文和800萬項專利。對其中的510萬篇論文和560萬項專利進行進一步分析,給出了作者的隸屬關系(author's affiliations)和對應工業部門(Industrial Sectors)信息。工業部門信息參考的Industrial Sectors Ontology (INDUSO)。? ? AIDA-KG集成了來自微軟MAG、Demensions、English DBpedia、CSO和Global Research Identifier Database (GRID)的數據,生成了包含2.42億篇論文、3800萬項專利、458萬個實體、1.4萬個研究主題和9.7萬個機構的知識圖譜。
網址:https://w3id.org/aida
論文:Simone Angioni, Angelo Salatino, Francesco Osborne, Diego Reforgiato Recupero, and Enrico Motta. AIDA: a Knowledge Graph about Research Dynamics in Academia and Industry. Quantitative Science Studies 2022; 2 (4): 1356–1398.