KEGG被稱為京都基因組百科全書,是一個(gè)綜合性的數(shù)據(jù)庫(kù)。對(duì)于如此龐大的數(shù)據(jù)庫(kù),肯定需要對(duì)數(shù)據(jù)進(jìn)行分門別類的整理。除了將各種數(shù)據(jù)拆分到不同的子數(shù)據(jù)庫(kù)中之外,KEGG還對(duì)所有的數(shù)據(jù)進(jìn)行了更加細(xì)致的功能分類,這些功能分類的信息就存儲(chǔ)在brite 數(shù)據(jù)庫(kù)中。
birte 主要包含以下五大類別的分類信息:
genes and protein
compounds and reactions
drugs
diseases
organisms and cells
在brite數(shù)據(jù)庫(kù)中,以文件的形式存儲(chǔ)分類信息。包含兩種格式的文件:
-
table 格式,比如對(duì)藥物的分類
-
htext 文件,比如kegg orthology 的分類
提供了兩種格式的文件用于下載,htext
對(duì)應(yīng)的后綴為 keg, json
對(duì)應(yīng)json。
json
格式是網(wǎng)絡(luò)數(shù)據(jù)傳說的新標(biāo)準(zhǔn),主要用于程序解析;`keg 文件是純文本文件,可以用文本編輯器打開。
以所有ko的分類文件 ko00000.keg
文件為例:
分類層級(jí)按照字母順序排列,示例文件中A 為第一級(jí)分類,B, C, D 依次為第二級(jí)。
我們可以直觀的看到 K00844 屬于Glycolysis / Gluconeogenesis
這個(gè)分類,對(duì)應(yīng)的更上一級(jí)的分類為Carbohydrate metabolism
,再上一級(jí)為 Metabolism
。
keg 文件格式還是非常容易理解的,但是使用起來不夠直觀,當(dāng)我們想要查詢某個(gè)KO的具體分類時(shí),如果和這個(gè)KO處于同一分類的節(jié)點(diǎn)太多時(shí),需要往上翻閱很多行,才能找到對(duì)應(yīng)的分類;有時(shí)一不小心就翻過了,就會(huì)搞錯(cuò)。
當(dāng)然可以通過程序格式化這個(gè)文件,比如將這個(gè)文件變成如下的格式:
KO | Name | C | B | A |
---|---|---|---|---|
K00844 | HK… | Glycolysis… | Carbo..bolism | Metabolism |
這樣方便查看條目的詳細(xì)分類信息;
對(duì)于沒有編程基礎(chǔ)的人來說,kegg 提供了keggHier
程序,專門用于查看brite中的分類信息。軟件是用java 開發(fā)的,提供了圖形界面,簡(jiǎn)單易用;
下載地址 :
使用方法
-
雙加批處理文件啟動(dòng)
image -
從菜單欄點(diǎn)擊
File
按鈕,選擇導(dǎo)入kegg網(wǎng)站上的數(shù)據(jù)
image -
這里選擇第一個(gè)
kegg pathway map
的分類結(jié)構(gòu),進(jìn)行查看
image向下的三角形表示展開的意思,這里有3個(gè),說明pathway 共有3層分類,鼠標(biāo)可以點(diǎn)擊任意一條記錄,可以展開詳細(xì)信息;
-
右上角的搜索框可以搜索,通過搜索框可以快速查找你感興趣的記錄
image
總結(jié):
brite
是存儲(chǔ)分類信息的數(shù)據(jù)庫(kù),提供了包含pathway, ko, module, drug, disease,organism 等所有記錄的分類;分類信息通過文件進(jìn)行距離,有
keg
和table
兩種格式;通過
KEGGHier
工具,可以方便的瀏覽 KEGG 分類系統(tǒng);