群體遺傳學習筆記-基因型缺失數據的填充

Genotype Imputation是在高通量測序中常出現的定義,按照義譯就是基因型填充。要真正理解imputation這個概念,我們就需要先理解基因型缺失(genotype missing)。

基因型缺失的定義

在重測序類的技術中,有一個關鍵的因素,就是測序數據對基因組的覆蓋度,在上一章測序技術里面有提到。樣本中沒有被測序數據覆蓋到的區域,基因型就屬于未知的,我們將之稱為缺失位點。例如下圖中的個體是二倍體,在21個位點中僅有3個位點被檢測到,其他標注為“.”的位點都屬于缺失位點。


具體來說,基因型數據的缺失又分為遺傳性缺失和檢測性缺失。前者是個體遺傳信息的變異(例如,這個位點DNA片段真實缺失)導致的基因型缺失。而后者,則是由于檢測技術的局限、錯誤等導致的信息丟失。各類基因型檢測技術都會產生檢測性的基因型缺失。但我們要認識一點,基因型缺失是相對概念,如果缺失是“無”,那么肯定是和“有”比較出來的。

常見的描述為缺失(missing)的情形包括:這個基因位點在群體中其他樣本上(可以是部分樣本)檢測到了,而在A樣本中沒有檢測到,就認為這是A樣本缺失位點。這個位點理論上該被檢測到(例如,SNP 芯片中有探針覆蓋的位點)而實際上沒有被檢測到,也會被定義為缺失位點。這個基因型在A技術中可以檢測到,但B技術檢測不到,那么也可以被定義為缺失。

下面我們羅列一下各類技術的缺失來源。

1.全基因組重測序技術

全基因組重測序理論上應該覆蓋整個基因組,因此未覆蓋的區域都可以被定義為缺失。那么群體研究中的低深度測序(一般平均深度低于10X),不可避免會產生大量隨機缺失

2.簡化基因組測序

簡化基因組測序是通過酶切,并富集限制性內切酶周邊的片段并進行測序的策略。針對簡化基因組,我們稱的缺失一般指的是沒有被檢測到的酶切片段相關的位點。簡化基因組的缺失,主要與酶切效率有關。酶切效率越高,缺失率越低。

3.外顯子測序以及目標區域捕獲測序

同簡化基因組測序類似,基于探針雜交的DNA捕獲以及測序技術,同樣會產生大量的缺失。這種缺失主要是由于探針雜交捕獲的效率所致。

4.SNP芯片

SNP芯片利用芯片雜交后的熒光信號,來判斷某個位點的基因型。SNP芯片同樣也會產生大量缺失。但在實際的研究中,SNP 芯片主要面臨的問題是芯片型號不同,甚至來源不同的廠商,那么芯片中包含的SNP位點也不同。當來源不同的數據一起分析的時候,將面臨數據不一致的問題。簡單說來,就是你有的我沒有,我有的你沒有。如下圖,Affymetrix和illuminate兩大SNP 芯片廠商生產的人類芯片就使用的是不同的SNP集,當放在一起分析的時候將面臨SNP不一致的問題。

最后,再次強調基因型缺失是1個相對性的概念。以上缺失的概念都是針對同種技術的比較。不同的技術比較,也可以定義為缺失。例如,同樣一份樣本,我們使用全部以上4種技術檢測。如果以全基因組高深度測序(>30X)為參照標準,后續的3種技術都有大量位點沒有檢測到,處于基因型缺失的狀態。

缺失的判斷也有很簡單的計算方法,就是缺失率(missing rate)。這個評價又分為樣本水平的缺失率和位點水平的缺失率。例如下圖,0、1、2 分別代表三種檢測到的基因型,圖中缺失位點使用“?”表示。那么樣本1的缺失率=20%(總體10個位點,有兩個位點缺失),而位點2的缺失率=60%(總體5個位點,有3個位點缺失)。

基因型缺失的影響

基因型缺失最直接的影響就是這個位置的信息缺失,從而影響下游分析(包括遺傳圖譜構建,QTL定位,選擇壓力分析,GWAS分析等)的信息完整性和準確性。例如,(b)中紅色的點是(a)中缺失的位點。而與性狀關聯的SNP位點,恰恰位于虛線所在的區域內。這些顯著位點在(a)中是缺失的,所以(a)沒有檢測到關聯信號,從丟失了非常關鍵的信息

所以,基因型缺失最大的風險就是信息丟失。基因型缺失對GWAS分析、選擇壓力分析影響都比較大。這類研究中,重測序技術相比其他三種技術,最大的優勢就是信息完整。

但某些研究對標記密度要求不是那么高,缺失的影響則較小。例如,對于遺傳圖譜類構建,通常幾千個標記就足以保證檢測所有的染色體重組事件。而簡化基因組測序通常可以獲得數萬個標記,我們通常會將高缺失率的位點直接過濾放棄,只保留剩余的高質量的低缺失率位點(通常依然有幾千個)用于下游分析,保證重組率計算的準確性。

應對數據缺失的方法——基因型填充

盡管基因型缺失有種種不利影響,但我們卻無法完全避免,只能使用生物信息的策略,來減少缺失的影響。這個方法就是基因型填充(imputation)。

Imputation英文的原意應該是歸罪、歸屬。而imputation在這里指代的意思是對這個位點的基因型規律進行總結,然后對缺失位點歸到某類中,賦予其一個最可能的基因型。所以,我將之稱為缺失填充。常見imputation的基本邏輯包括兩步:

  1. 從目標位點/區域非缺失的位點中,總結這個區域的基因型規律,并分類。其實就是分析各個區域的單體型組成。
  2. 根據某樣本缺失位點的上下其他非缺失位點,判斷這個區域屬于哪種單倍型。然后根據所屬單倍型的基因型補充該樣本的缺失位點。

其原理:基因型填充的最初構想基于家系樣本的遺傳特性。具有已知親緣關系的個體之間具有共享的單體型(haplotype),這些由有限個遺傳標記所構成的單體型隨祖先一起遺傳,反映連鎖不平衡。

因此,在具有相同單體型的家系中,遺傳標記少的樣本可以參照遺傳標記多的樣本進行基因型填充。對于沒有親緣關系的樣本,以上理論也基本適用,主要的差別在于無血緣關系的樣本之間共享的單體型比家系樣本之間的要短很多。對無親緣關系樣本進行基因型填充需要一個高密度遺傳標記構成的單體型圖譜作為參照。通過對比待填充樣本和參考模板,找到兩者之間共有的單體型,然后就可以將匹配上的參考模板中的位點復制到目標數據集中。

在圖a中,那個有大量缺失基因型的個體就是圖1中的個體。圖中下半部分由多個個體構成的參考單倍型集(reference haploypes)。這些參考集的基因型都是完整的。從這些參考數據集中,我們可以推斷整個群體的單倍型構成。然后,根據缺失樣本有限的基因型信息(僅有3個位點),就可以判斷這個樣本與參考單倍型集中的哪種單倍型最為相似(圖中分別對應紫色、綠色、黃色三種單倍型)。然后,將對應的最相似的單倍型賦予給該樣本,從而讓該樣本獲得完整的基因型,圖b

基因型填充常用軟件

目前,隨著計算生物學和生物信息學的發展,有很多算法和軟件都有能力完成基因型填充的任務。

這些方法基本可以分為兩大類:

(i)計算密集型,比如IMPUTE、 IMPUTE2、MACH、 和fastPHASE/BIMBAM。這種類型的方法在填充的過程中充分考慮到全部可以觀察到的基因型信息,使得對缺失值的估算更加精確;但以上大部分軟件都是針對人類的開發的。人類種群的遺傳特性是個體雜合率較高、近交率低、系譜關系來源隨機。很多植物,尤其作物的遺傳特性則和人類相反。以玉米為例,玉米在育種過程中,會伴隨大量的自交,因此純合度較高,而且系譜關系(雜交方式)往往可控。以上針對人類學開發的軟件就未必適用了。如果是遺傳特性與玉米類似的植物的GBS數據,可以采用Tassel中包含的imputation模塊。

(ii)計算高效型,比如PLINK、TUNA、WHAP和BEAGLE。此種算法僅僅關注與特定位點相鄰的一小部分標記的基因型,因此在計算上更加快捷。表1列出了4種常見的基因型填充軟件的特性

小結

對于人類的遺傳研究,由于其條件與研究已經非常充分,缺失數據填充是很有必要的一步。對于其他物種,在允許的條件下,可以借助GBS或者一些測得比較好的SNP數據庫去填充缺失的數據,如果條件不理想且自身雜交比較復雜,這步可以跳過。

轉自整理于:奧迪基因 http://www.omicshare.com/forum/thread-1293-1-1.html

?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,572評論 6 531
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,071評論 3 414
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 175,409評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,569評論 1 307
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,360評論 6 404
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 54,895評論 1 321
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 42,979評論 3 440
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,123評論 0 286
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,643評論 1 333
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,559評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,742評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,250評論 5 356
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 43,981評論 3 346
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,363評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,622評論 1 280
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,354評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,707評論 2 370

推薦閱讀更多精彩內容

  • 重測序技術簡介 全基因組重測序(Resequencing)是對已知參考基因組序列的物種進行不同個體間的基因組測序,...
    lakeseafly閱讀 10,411評論 1 54
  • 非常優秀的研究總結,值得學習領會和思考。因為字數太多,可以去作者的博文地址http://www.huangshuj...
    王詩翔閱讀 4,201評論 1 24
  • 遺傳群體所用的技術 簡化基因組 簡化基因組(Reduced-Representation Genome Seque...
    JoJomjchen閱讀 5,555評論 0 16
  • 索引 數據庫中的查詢操作非常普遍,索引就是提升查找速度的一種手段 索引的類型 從數據結構角度分 1.B+索引:傳統...
    一凡呀閱讀 2,973評論 0 8
  • 人人都知道中國有八大菜系,廣州的面細細品味,大抵也可分四大品種: 歐成記銀絲面,竹園竹升面,婆婆寬面,堅記伊府面。...
    七辻屋賣饅頭的閱讀 1,278評論 2 0