生物信息數據庫

轉載https://www.plob.org/article/3856.html

生物信息數據庫與查詢

近年來大量生物學實驗的數據積累,形成了當前數以百計的生物信息數據庫。它們各自按一定的目標收集和整理生物學實驗數據,并提供相關的數據查詢、數據處理的服務。隨著因特網的普及,這些數據庫大多可以通過網絡來訪問,或者通過網絡下載。

一般而言,這些生物信息數據庫可以分為一級數據庫和二級數據庫。一級數據庫的數據都直接來源于實驗獲得的原始數據,只經過簡單的歸類整理和注釋;二級數據庫是在一級數據庫、實驗數據和理論分析的基礎上針對特定目標衍生而來,是對生物學知識和信息的進一步整理。國際上著名的一級核酸數據庫有Genbank數據庫、EMBL核酸庫和DDBJ庫等;蛋白質序列數據庫有SWISS-PROT、PIR等;蛋白質結構庫有PDB等。國際上二級生物學數據庫非常多,它們因針對不同的研究內容和需要而各具特色,如人類基因組圖譜庫GDB、轉錄因子和結合位點庫TRANSFAC、蛋白質結構家族分類庫SCOP等等。

下面將順序簡要介紹一些著名和有特色的生物信息數據庫。

2.1 基因和基因組數據庫

1. Genbank

Genbank庫包含了所有已知的核酸序列和蛋白質序列,以及與它們相關的文獻著作和生物學注釋。它是由美國國立生物技術信息中心(NCBI)建立和維護的。它的數據直接來源于測序工作者提交的序列;由測序中心提交的大量EST序列和其它測序數據;以及與其它數據機構協作交換數據而來。Genbank每天都會與歐洲分子生物學實驗室(EMBL)的數據庫,和日本的DNA數據庫(DDBJ)交換數據,使這三個數據庫的數據同步。到1999年8月,Genbank中收集的序列數量達到460萬條,34億個堿基,而且數據增長的速度還在不斷加快。Genbank的數據可以從NCBI的FTP服務器上免費下載完整的庫,或下載積累的新數據。NCBI還提供廣泛的數據查詢、序列相似性搜索以及其它分析服務,用戶可以從NCBI的主頁上找到這些服務。

Genbank庫里的數據按來源于約55,000個物種,其中56%是人類的基因組序列(所有序列中的34%是人類的EST序列)。每條Genbank數據記錄包含了對序列的簡要描述,它的科學命名,物種分類名稱,參考文獻,序列特征表,以及序列本身。序列特征表里包含對序列生物學特征注釋如:編碼區、轉錄單元、重復區域、突變位點或修飾位點等。所有數據記錄被劃分在若干個文件里,如細菌類、病毒類、靈長類、嚙齒類,以及EST數據、基因組測序數據、大規模基因組序列數據等16類,其中EST數據等又被各自分成若干個文件。

(1)Genbank數據檢索

NCBI的數據庫檢索查詢系統是Entrez。Entrez是基于Web界面的綜合生物信息數據庫檢索系統。利用Entrez系統,用戶不僅可以方便地檢索Genbank的核酸數據,還可以檢索來自Genbank和其它數據庫的蛋白質序列數據、基因組圖譜數據、來自分子模型數據庫(MMDB)的蛋白質三維結構數據、種群序列數據集、以及由PubMed獲得Medline的文獻數據。

Entrez提供了方便實用的檢索服務,所有操作都可以在網絡瀏覽器上完成。用戶可以利用Entrez界面上提供的限制條件(Limits)、索引(Index)、檢索歷史(History)和剪貼板(Clipboard)等功能來實現復雜的檢索查詢工作。對于檢索獲得的記錄,用戶可以選擇需要顯示的數據,保存查詢結果,甚至以圖形方式觀看檢索獲得的序列。更詳細的Entrez使用說明可以在該主頁上獲得。

(2)向Genbank提交序列數據

測序工作者可以把自己工作中獲得的新序列提交給NCBI,添加到Genbank數據庫。這個任務可以由基于Web界面的BankIt或獨立程序Sequin來完成。

BankIt是一系列表單,包括聯絡信息、發布要求、引用參考信息、序列來源信息、以及序列本身的信息等。用戶提交序列后,會從電子郵件收到自動生成的數據條目,Genbank的新序列編號,以及完成注釋后的完整的數據記錄。用戶還可以在BankIt頁面下修改已經發布序列的信息。BankIt適合于獨立測序工作者提交少量序列,而不適合大量序列的提交,也不適合提交很長的序列,EST序列和GSS序列也不應用BankIt提交。BankIt使用說明和對序列的要求可詳見其主頁面。

大量的序列提交可以由Sequin程序完成。Sequin程序能方便的編輯和處理復雜注釋,并包含一系列內建的檢查函數來提高序列的質量保證。它還被設計用于提交來自系統進化、種群和突變研究的序列,可以加入比對的數據。Sequin除了用于編輯和修改序列數據記錄,還可以用于序列的分析,任何以FASTA或ASN.1格式序列為輸入數據的序列分析程序都可以整合到Sequin程序下。在不同操作系統下運行的Sequin程序都可以在ftp://ncbi.nlm.nih.gov/sequin/下找到,Sequin的使用說明可詳見其網頁。

NCBI的網址是:http://www.ncbi.nlm.nih.gov

Entrez的網址是:http://www.ncbi.nlm.nih.gov/entrez/

BankIt的網址是:http://www.ncbi.nlm.nih.gov/BankIt

Sequin的相關網址是:http://www.ncbi.nlm.nih.gov/Sequin/

2. EMBL核酸序列數據庫

EMBL核酸序列數據庫由歐洲生物信息學研究所(EBI)維護的核酸序列數據構成,由于與Genbank和DDBJ的數據合作交換,它也是一個全面的核酸序列數據庫。該數據庫由Oracal數據庫系統管理維護,查詢檢索可以通過通過因特網上的序列提取系統(SRS)服務完成。向EMBL核酸序列數據庫提交序列可以通過基于Web的WEBIN工具,也可以用Sequin軟件來完成。

數據庫網址是:http://www.ebi.ac.uk/embl/

SRS的網址是:http://srs.ebi.ac.uk/

WEBIN的網址是:http://www.ebi.ac.uk/embl/Submission/webin.html

3. DDBJ數據庫

日本DNA數據倉庫(DDBJ)也是一個全面的核酸序列數據庫,與Genbank和EMBL核酸庫合作交換數據。可以使用其主頁上提供的SRS工具進行數據檢索和序列分析。可以用Sequin軟件向該數據庫提交序列。

DDBJ的網址是:http://www.ddbj.nig.ac.jp/

4. GDB

基因組數據庫(GDB)為人類基因組計劃(HGP)保存和處理基因組圖譜數據。GDB的目標是構建關于人類基因組的百科全書,除了構建基因組圖譜之外,還開發了描述序列水平的基因組內容的方法,包括序列變異和其它對功能和表型的描述。目前GDB中有:人類基因組區域(包括基因、克隆、amplimers PCR 標記、斷點breakpoints、細胞遺傳標記cytogenetic markers、易碎位點fragile sites、EST序列、綜合區域syndromic regions、contigs和重復序列);人類基因組圖譜(包括細胞遺傳圖譜、連接圖譜、放射性雜交圖譜、content contig圖譜和綜合圖譜等);人類基因組內的變異(包括突變和多態性,加上等位基因頻率數據)。GDB數據庫以對象模型來保存數據,提供基于Web的數據對象檢索服務,用戶可以搜索各種類型的對象,并以圖形方式觀看基因組圖譜。

GDB的網址是:http://www.gdb.org

GDB的國內鏡像是:http://gdb.pku.edu.cn/gdb/

2.2 蛋白質數據庫

1. PIR和PSD

PIR國際蛋白質序列數據庫(PSD)是由蛋白質信息資源(PIR)、慕尼黑蛋白質序列信息中心(MIPS)和日本國際蛋白質序列數據庫(JIPID)共同維護的國際上最大的公共蛋白質序列數據庫。這是一個全面的、經過注釋的、非冗余的蛋白質序列數據庫,包含超過142,000條蛋白質序列(至99年9月),其中包括來自幾十個完整基因組的蛋白質序列。所有序列數據都經過整理,超過99%的序列已按蛋白質家族分類,一半以上還按蛋白質超家族進行了分類。PSD的注釋中還包括對許多序列、結構、基因組和文獻數據庫的交叉索引,以及數據庫內部條目之間的索引,這些內部索引幫助用戶在包括復合物、酶-底物相互作用、活化和調控級聯和具有共同特征的條目之間方便的檢索。每季度都發行一次完整的數據庫,每周可以得到更新部分。

PSD數據庫有幾個輔助數據庫,如基于超家族的非冗余庫等。PIR提供三類序列搜索服務:基于文本的交互式檢索;標準的序列相似性搜索,包括BLAST、FASTA等;結合序列相似性、注釋信息和蛋白質家族信息的高級搜索,包括按注釋分類的相似性搜索、結構域搜索GeneFIND等。

PIR和PSD的網址是:http://pir.georgetown.edu/

數據庫下載地址是:ftp://nbrfa.georgetown.edu/pir/

2. SWISS-PROT

SWISS-PROT是經過注釋的蛋白質序列數據庫,由歐洲生物信息學研究所(EBI)維護。數據庫由蛋白質序列條目構成,每個條目包含蛋白質序列、引用文獻信息、分類學信息、注釋等,注釋中包括蛋白質的功能、轉錄后修飾、特殊位點和區域、二級結構、四級結構、與其它序列的相似性、序列殘缺與疾病的關系、序列變異體和沖突等信息。SWISS-PROT中盡可能減少了冗余序列,并與其它30多個數據建立了交叉引用,其中包括核酸序列庫、蛋白質序列庫和蛋白質結構庫等。

利用序列提取系統(SRS)可以方便地檢索SWISS-PROT和其它EBI的數據庫。

SWISS-PROT只接受直接測序獲得的蛋白質序列,序列提交可以在其Web頁面上完成。

SWISS-PROT的網址是:http://www.ebi.ac.uk/swissprot/

3. PROSITE

PROSITE數據庫收集了生物學有顯著意義的蛋白質位點和序列模式,并能根據這些位點和模式快速和可靠地鑒別一個未知功能的蛋白質序列應該屬于哪一個蛋白質家族。有的情況下,某個蛋白質與已知功能蛋白質的整體序列相似性很低,但由于功能的需要保留了與功能密切相關的序列模式,這樣就可能通過PROSITE的搜索找到隱含的功能motif,因此是序列分析的有效工具。PROSITE中涉及的序列模式包括酶的催化位點、配體結合位點、與金屬離子結合的殘基、二硫鍵的半胱氨酸、與小分子或其它蛋白質結合的區域等;除了序列模式之外,PROSITE還包括由多序列比對構建的profile,能更敏感地發現序列與profile的相似性。PROSITE的主頁上提供各種相關檢索服務。

PROSITE的網址是:http://www.expasy.ch/prosite/

4. PDB

蛋白質數據倉庫(PDB)是國際上唯一的生物大分子結構數據檔案庫,由美國Brookhaven國家實驗室建立。PDB收集的數據來源于X光晶體衍射和核磁共振(NMR)的數據,經過整理和確認后存檔而成。目前PDB數據庫的維護由結構生物信息學研究合作組織(RCSB)負責。RCSB的主服務器和世界各地的鏡像服務器提供數據庫的檢索和下載服務,以及關于PDB數據文件格式和其它文檔的說明,PDB數據還可以從發行的光盤獲得。使用Rasmol等軟件可以在計算機上按PDB文件顯示生物大分子的三維結構。

RCSB的PDB數據庫網址是:http://www.rcsb.org/pdb/

5. SCOP

蛋白質結構分類(SCOP)數據庫詳細描述了已知的蛋白質結構之間的關系。分類基于若干層次:家族,描述相近的進化關系;超家族,描述遠源的進化關系;折疊子(fold),描述空間幾何結構的關系;折疊類,所有折疊子被歸于全α、全β、α/β、α+β和多結構域等幾個大類。SCOP還提供一個非冗余的ASTRAIL序列庫,這個庫通常被用來評估各種序列比對算法。此外,SCOP還提供一個PDB-ISL中介序列庫,通過與這個庫中序列的兩兩比對,可以找到與未知結構序列遠緣的已知結構序列。

SCOP的網址是:http://scop.mrc-lmb.cam.ac.uk/scop/

6. COG

蛋白質直系同源簇(COGs)數據庫是對細菌、藻類和真核生物的21個完整基因組的編碼蛋白,根據系統進化關系分類構建而成。COG庫對于預測單個蛋白質的功能和整個新基因組中蛋白質的功能都很有用。利用COGNITOR程序,可以把某個蛋白質與所有COGs中的蛋白質進行比對,并把它歸入適當的COG簇。COG庫提供了對COG分類數據的檢索和查詢,基于Web的COGNITOR服務,系統進化模式的查詢服務等。

COG庫的網址是:http://www.ncbi.nlm.nih.gov/COG

下載COG庫和COGNITOR程序在:ftp://ncbi.nlm.nih.gov/pub/COG

2.3 功能數據庫

1. KEGG

京都基因和基因組百科全書(KEGG)是系統分析基因功能,聯系基因組信息和功能信息的知識庫。基因組信息存儲在GENES數據庫里,包括完整和部分測序的基因組序列;更高級的功能信息存儲在PATHWAY數據庫里,包括圖解的細胞生化過程如代謝、膜轉運、信號傳遞、細胞周期,還包括同系保守的子通路等信息;KEGG的另一個數據庫是LIGAND,包含關于化學物質、酶分子、酶反應等信息。KEGG提供了Java的圖形工具來訪問基因組圖譜,比較基因組圖譜和操作表達圖譜,以及其它序列比較、圖形比較和通路計算的工具,可以免費獲取。

KEGG的網址是:http://www.genome.ad.jp/kegg/

2. DIP

相互作用的蛋白質數據庫(DIP)收集了由實驗驗證的蛋白質-蛋白質相互作用。數據庫包括蛋白質的信息、相互作用的信息和檢測相互作用的實驗技術三個部分。用戶可以根據蛋白質、生物物種、蛋白質超家族、關鍵詞、實驗技術或引用文獻來查詢DIP數據庫。

DIP的網址是:http://dip.doe-mbi.ucla.edu/

3. ASDB

可變剪接數據庫(ASDB)包括蛋白質庫和核酸庫兩部分。ASDB(蛋白質)部分來源于SWISS-PROT蛋白質序列庫,通過選取有可變剪接注釋的序列,搜索相關可變剪接的序列,經過序列比對、篩選和分類構建而成。ASDB(核酸)部分來自Genbank中提及和注釋的可變剪接的完整基因構成。數據庫提供了方便的搜索服務。

ASDB的網址是:http://cbcg.nersc.gov/asdb

4. TRRD

轉錄調控區數據庫(TRRD)是在不斷積累的真核生物基因調控區結構-功能特性信息基礎上構建的。每一個TRRD的條目里包含特定基因各種結構-功能特性:轉錄因子結合位點、啟動子、增強子、靜默子、以及基因表達調控模式等。TRRD包括五個相關的數據表:TRRDGENES(包含所有TRRD庫基因的基本信息和調控單元信息);TRRDSITES(包括調控因子結合位點的具體信息);TRRDFACTORS(包括TRRD中與各個位點結合的調控因子的具體信息);TRRDEXP(包括對基因表達模式的具體描述);TRRDBIB(包括所有注釋涉及的參考文獻)。TRRD主頁提供了對這幾個數據表的檢索服務。

TRRD的網址是:http://wwwmgs.bionet.nsc.ru/mgs/dbases/trrd4/

5. TRANSFAC

TRANSFAC數據庫是關于轉錄因子、它們在基因組上的結合位點和與DNA結合的profiles的數據庫。由SITE、GENE、FACTOR、CLASS、MATRIX、CELLS、METHOD和REFERENCE等數據表構成。此外,還有幾個與TRANSFAC密切相關的擴展庫:PATHODB庫收集了可能導致病態的突變的轉錄因子和結合位點;S/MART DB收集了與染色體結構變化相關的蛋白因子和位點的信息;TRANSPATH庫用于描述與轉錄因子調控相關的信號傳遞的網絡;CYTOMER庫表現了人類轉錄因子在各個器官、細胞類型、生理系統和發育時期的表達狀況。TRANSFAC及其相關數據庫可以免費下載,也可以通過Web進行檢索和查詢。

TRANSFAC的網址是:http://transfac.gbf.de/TRANSFAC/

2.4 其它數據庫資源

1. DBCat

DBCat是生物信息數據庫的目錄數據庫,它收集了500多個生物信息學數據庫的信息,并根據它們的應用領域進行了分類。包括DNA、RNA、蛋白質、基因組、圖譜、蛋白質結構、文獻著作等基本類型。數據庫可以免費下載或在網絡上檢索查詢。

DBCat的網址是:http://www.infobiogen.fr/services/dbcat/

下載DBCat在:ftp://ftp.infobiogen.fr/pub/db/dbcat

2. PubMed

PubMed是NCBI維護的文獻引用數據庫,提供對MEDLINE、Pre-MEDLINE等文獻數據庫的引用查詢和對大量網絡科學類電子期刊的鏈接。利用Entrez系統可以對PubMed進行方便的查詢檢索。

PubMed的網址是:http://www.ncbi.nlm.nih.gov/

除了以上提及的數據之外,還有許許多多的專門生物信息數據庫,涉及了目前生物學研究的各個層面和領域,由于篇幅所限無法一一詳述。國內也有一些大數據庫的鏡像站點和自己開發的有特色的數據庫,如歐洲分子生物學網絡組織EMBNet中國節點北京大學分子生物信息鏡像系統,上海博容基因公司與上海嘉瑞軟件公司合作開發的國產漢化基因數據庫及分析管理系統,同時國家級的生物信息學中心也在籌建之中。我們期待國內能有更多高質量和使用便利的數據庫資源,推動我國生物信息學和整個生命科學的發展。

清華大學生物信息學研究所網址:http://bioinfo.tsinghua.edu.cn

北京大學生物信息鏡像系統網址:http://cbi.pku.edu.cn

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,156評論 6 531
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,401評論 3 415
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,069評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,873評論 1 309
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,635評論 6 408
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,128評論 1 323
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,203評論 3 441
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,365評論 0 288
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,881評論 1 334
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,733評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,935評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,475評論 5 358
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,172評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,582評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,821評論 1 282
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,595評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,908評論 2 372

推薦閱讀更多精彩內容