kegg Genome 由organisms,selected viruses 和 Metagenomes 3個數(shù)據(jù)庫構(gòu)成。
kegg Organisms 數(shù)據(jù)庫收錄了有完整基因組序列的物種信息,對于每個物種,有兩種表示方法:
三個字母或者四個字母的物種代碼, 叫做org code, 比如human對應(yīng)的org code 為
hsa
, mouse對應(yīng)的org code為mmu
;T Number, 對于organisms 中的所有物種來說,開頭都是T0, 比如 human 對應(yīng)的T Number 為T01001;
以human
為例,鏈接為
organisms 數(shù)據(jù)庫記錄了如下的信息:
除了 T number 和 Org code 等基本信息外,還包括了taxonomy 等其他信息。在這些詳細(xì)信息中,Data source 代表基因組序列的來源數(shù)據(jù)庫,通常是 Refseq
或者 Genebank
; Original DB
是物種特異性的其他數(shù)據(jù)庫,點擊藍色的字可以跳轉(zhuǎn)到對應(yīng)的數(shù)據(jù)庫中去。其實這就是綜合性數(shù)據(jù)庫的價值,你只需要在綜合性數(shù)據(jù)庫中瀏覽,就可以知道這個物種相關(guān)的數(shù)據(jù)庫有哪些,而且可以很方便的跳轉(zhuǎn)到感興趣的數(shù)據(jù)庫中。
selected viruses 數(shù)據(jù)庫收錄了與人類或者植物病理性相關(guān)的病毒信息,對于不同的病毒,用T Number 進行區(qū)分。所有的病毒的T Number 都是以 T4 開頭的,比如T40218
viruses 數(shù)據(jù)庫中還會提供病毒的宿主,相關(guān)疾病等詳細(xì)信息。
Metagenomes 數(shù)據(jù)庫收錄了一些環(huán)境微生物的相關(guān)信息,主要包括口腔,腸道,空氣,皮膚, 泌尿生殖系統(tǒng)5大,大部分是口腔和腸道微生物。對于環(huán)境微生物,每個物種的T number 都是 T3 開頭。
kegg官網(wǎng)提供的Genome 數(shù)據(jù)庫的構(gòu)成示意圖如下:
對于organisms 數(shù)據(jù)庫中的物種,kegg 提供了一個簡單的taxonomy 分類體系,和 NCBI 的taxonomy 數(shù)據(jù)庫還是有區(qū)別的。
總結(jié)
kegg genome
數(shù)據(jù)庫存儲物種信息,由organisms , viruses, metagenomes 三個數(shù)據(jù)庫構(gòu)成。每個物種用T Number 唯一標(biāo)識,organisms 中的物種都以T0 開頭, viruses 中的物種以 T4 開頭,metagenomes 中的物種以 T4 開頭。
kegg有一套較為簡單的物種分類體系,叫做kegg taxonomy, 和 ncbi taxonomy 還是有區(qū)別的。