轉載:http://www.omicshare.com/forum/thread-2703-1-1.html
外顯子雖然只占約1%人類基因組大小,但多數疾病都是由編碼基因的低頻或罕見突變引起,同時外顯子測序容易實現>100x的深度測序,因此對外顯子的研究是一種高效的發現人類疾病信息的研究手段。
市面上一般都是通過探針雜交富集外顯子,然后利用二代測序獲得其序列信息,最后結合公共數據庫的外顯子數據,解釋變異與疾病之間的關聯。
外顯子測序分析主要包含變異挖掘與變異注釋兩部分,其中變異注釋尤為關鍵。因為通過變異注釋,我們可以了解突變的變異位置、頻率等信息,從而結合生物學背景篩選出候選新生變異位點,以用于后期功能研究或疾病模型構建。一般來說,外顯子變異注釋主要分為四大類:第一類為位置注釋,第二類為變異頻率信息,第三類為蛋白變異信息,第四類變異基因功能類型。今天我們就對變異頻率信息挖掘對大家進行簡單介紹。
變異頻率分析
正常人體基因組中存在大量的變異信息,其中90%以上的變異信息是高頻率(>5%)的,也就是在大部分人中都存在。一般來說,高頻的變異往往與疾病無關,只有部分低頻的變異具有致病性。因此通過對變異進行頻率分析篩選,能夠有助于找出有效致病突變位點。
為達到變異篩選目的,我們一般會在幾個大型的外顯子變異數據庫中對新發現的突變進行注釋,了解其突變頻率等情況。常用的數據庫有dbSNP、Hapmap、COSMIC、1000Genomes projects千人基因組計劃(根據人種來源,分為全部人種、東亞人、美洲人等不同子數據庫)、ESP6500外顯子計劃、ExAC(根據人種來源,分為全部人種、東亞人等不同子數據庫)。
1. dbSNP
dbSNP(https://www.ncbi.nlm.nih.gov/projects/SNP/)是NCBI與人類基因組研究所合作建立的關于單堿基替(SNP)以及短插入刪除(InDel)的資源庫。它的數據來源于公共實驗室以及私人研究組織。
測序公司一般會在dbSNP數據庫中對新發現變異進行注釋,給出該變異在dbSNP中的ID,這個ID就是NCBI所賦予數據庫中每個SNP的rs號。在數據庫中,通過rs號的搜索,可以發現SNP的前后序列、位置信息、分布頻率等。這些信息在我們判斷新變異的重要性中有著重要意義。
2. Hapmap
人類基因組單體型數據庫(www.hapmap.org)。通過注釋,可以知道該變異與人類健康、疾病以及對藥物和環境因子的個體反應差異相關的基因相關性,變異的ID與dbSNP的ID一致。但在16年6月,HapMap網站已經被關閉,并逐漸被1000 Genomes Project所取代。
3. COSMIC
全稱 Catalogueof Somatic Mutations in Cancer(http://cancer.sanger.ac.uk/cosmic),是全球最大的癌癥體細胞突變數據庫。注釋結果一般包含COSMIC中的ID,觀察到突變的次數(OCCURRENCE),以及觀察到變異所在的癌組織名稱(如haematopoietic_and_lymphoid_tissue)。通過COSMIC突變注釋,可知檢測到的體細胞突變是否已被報導或觀測到過,以及在哪些癌種中被報導的次數。
4. 1000Genomesprojects
千人基因組計劃(http://www.internationalgenome.org/)。通過注釋,可以知道該變異在全部參與千人基因組計劃人群中的突變頻率,參與人群來自于非洲AFR(African),美洲AMR(Admixed American),東亞EAS(EastAsian),歐洲EUR(European),南亞SAS(South Asian)等區域。根據不同目標研究人種,有的公司會單獨對某個子數據庫進行分析,例如研究中國人,會另外在東亞EAS數據庫中注釋突變頻率。
5. ESP6500
國家心肺和血液研究所外顯子組測序計劃(NHLBI-ESP project),這個計劃中的esp6500si_all數據庫(http://evs.gs.washington.edu/EVS/)中包含SNP變異、InDel變異和Y染色體上的變異的所有個體中,突變堿基的等位基因頻率(alternativeallele frequency)。通過注釋,我們可以了解到突變在ESP6500的變異頻率,并過濾突變頻率大于0.01的數據。
6. ExAC
全稱Exome Aggregation Consortium(http://exac.broadinstitute.org/),它整合了60706個無親緣關系個體的數據,這些個體來源于大量疾病研究和群體遺傳學研究,能夠用做嚴重疾病研究的參考數據庫。目前ExAC數據庫中包括ALL,AFR(African),AMR(Admixed American),EAS(East Asian),FIN(Finnish),NFE(Non-finnish European),OTH(other),SAS(South Asian)。
通過ExAC的著述,可以了解該變異位點上突變堿基的等位基因頻率,并可采用0.01的標準進行過濾。與1000Genomesprojects一樣,有的公司會根據不同目標研究人種單獨對某個子數據庫進行分析,例如研究中國人,會另外在東亞EAS數據庫中注釋突變頻率。
目標變異篩選(基于變異頻率)
結合以上數據庫,通過特定的閾值篩選,我們可以過濾很多無效變異。例如,可以過濾千人基因組數據庫中頻率大于0.01變異位點,以得到真正可能致病的罕見突變(rare)。也可以聯合多個數據庫對突變頻率進行過濾,或者同時參考dbSNP中記錄的SNP信息,初步判斷數據庫中不存在的變異為新發現變異,以增加研究價值。
不過值得注意的是,在dbSNP中沒有記錄的變異,有可能是新變異,也有可能是舊的符合條件的變異,更有可能是測序錯誤。因此在判斷某一變異的價值的時候,需要結合其位置信息以及蛋白突變有害性等信息進行判斷