Genotype Imputation是在高通量測序中常出現的定義,按照義譯就是基因型填充。要真正理解imputation這個概念,我們就需要先理解基因型缺失(genotype missing)。
基因型缺失的定義
在重測序類的技術中,有一個關鍵的因素,就是測序數據對基因組的覆蓋度,在上一章測序技術里面有提到。樣本中沒有被測序數據覆蓋到的區域,基因型就屬于未知的,我們將之稱為缺失位點。例如下圖中的個體是二倍體,在21個位點中僅有3個位點被檢測到,其他標注為“.”的位點都屬于缺失位點。

具體來說,基因型數據的缺失又分為遺傳性缺失和檢測性缺失。前者是個體遺傳信息的變異(例如,這個位點DNA片段真實缺失)導致的基因型缺失。而后者,則是由于檢測技術的局限、錯誤等導致的信息丟失。各類基因型檢測技術都會產生檢測性的基因型缺失。但我們要認識一點,基因型缺失是相對概念,如果缺失是“無”,那么肯定是和“有”比較出來的。
常見的描述為缺失(missing)的情形包括:這個基因位點在群體中其他樣本上(可以是部分樣本)檢測到了,而在A樣本中沒有檢測到,就認為這是A樣本缺失位點。這個位點理論上該被檢測到(例如,SNP 芯片中有探針覆蓋的位點)而實際上沒有被檢測到,也會被定義為缺失位點。這個基因型在A技術中可以檢測到,但B技術檢測不到,那么也可以被定義為缺失。
下面我們羅列一下各類技術的缺失來源。
1.全基因組重測序技術
全基因組重測序理論上應該覆蓋整個基因組,因此未覆蓋的區域都可以被定義為缺失。那么群體研究中的低深度測序(一般平均深度低于10X),不可避免會產生大量隨機缺失。
2.簡化基因組測序
簡化基因組測序是通過酶切,并富集限制性內切酶周邊的片段并進行測序的策略。針對簡化基因組,我們稱的缺失一般指的是沒有被檢測到的酶切片段相關的位點。簡化基因組的缺失,主要與酶切效率有關。酶切效率越高,缺失率越低。
3.外顯子測序以及目標區域捕獲測序
同簡化基因組測序類似,基于探針雜交的DNA捕獲以及測序技術,同樣會產生大量的缺失。這種缺失主要是由于探針雜交捕獲的效率所致。
4.SNP芯片
SNP芯片利用芯片雜交后的熒光信號,來判斷某個位點的基因型。SNP芯片同樣也會產生大量缺失。但在實際的研究中,SNP 芯片主要面臨的問題是芯片型號不同,甚至來源不同的廠商,那么芯片中包含的SNP位點也不同。當來源不同的數據一起分析的時候,將面臨數據不一致的問題。簡單說來,就是你有的我沒有,我有的你沒有。如下圖,Affymetrix和illuminate兩大SNP 芯片廠商生產的人類芯片就使用的是不同的SNP集,當放在一起分析的時候將面臨SNP不一致的問題。

最后,再次強調基因型缺失是1個相對性的概念。以上缺失的概念都是針對同種技術的比較。不同的技術比較,也可以定義為缺失。例如,同樣一份樣本,我們使用全部以上4種技術檢測。如果以全基因組高深度測序(>30X)為參照標準,后續的3種技術都有大量位點沒有檢測到,處于基因型缺失的狀態。
缺失的判斷也有很簡單的計算方法,就是缺失率(missing rate)。這個評價又分為樣本水平的缺失率和位點水平的缺失率。例如下圖,0、1、2 分別代表三種檢測到的基因型,圖中缺失位點使用“?”表示。那么樣本1的缺失率=20%(總體10個位點,有兩個位點缺失),而位點2的缺失率=60%(總體5個位點,有3個位點缺失)。

基因型缺失的影響
基因型缺失最直接的影響就是這個位置的信息缺失,從而影響下游分析(包括遺傳圖譜構建,QTL定位,選擇壓力分析,GWAS分析等)的信息完整性和準確性。例如,(b)中紅色的點是(a)中缺失的位點。而與性狀關聯的SNP位點,恰恰位于虛線所在的區域內。這些顯著位點在(a)中是缺失的,所以(a)沒有檢測到關聯信號,從丟失了非常關鍵的信息

所以,基因型缺失最大的風險就是信息丟失。基因型缺失對GWAS分析、選擇壓力分析影響都比較大。這類研究中,重測序技術相比其他三種技術,最大的優勢就是信息完整。
但某些研究對標記密度要求不是那么高,缺失的影響則較小。例如,對于遺傳圖譜類構建,通常幾千個標記就足以保證檢測所有的染色體重組事件。而簡化基因組測序通常可以獲得數萬個標記,我們通常會將高缺失率的位點直接過濾放棄,只保留剩余的高質量的低缺失率位點(通常依然有幾千個)用于下游分析,保證重組率計算的準確性。
應對數據缺失的方法——基因型填充
盡管基因型缺失有種種不利影響,但我們卻無法完全避免,只能使用生物信息的策略,來減少缺失的影響。這個方法就是基因型填充(imputation)。
Imputation英文的原意應該是歸罪、歸屬。而imputation在這里指代的意思是對這個位點的基因型規律進行總結,然后對缺失位點歸到某類中,賦予其一個最可能的基因型。所以,我將之稱為缺失填充。常見imputation的基本邏輯包括兩步:
- 從目標位點/區域非缺失的位點中,總結這個區域的基因型規律,并分類。其實就是分析各個區域的單體型組成。
- 根據某樣本缺失位點的上下其他非缺失位點,判斷這個區域屬于哪種單倍型。然后根據所屬單倍型的基因型補充該樣本的缺失位點。
其原理:基因型填充的最初構想基于家系樣本的遺傳特性。具有已知親緣關系的個體之間具有共享的單體型(haplotype),這些由有限個遺傳標記所構成的單體型隨祖先一起遺傳,反映連鎖不平衡。
因此,在具有相同單體型的家系中,遺傳標記少的樣本可以參照遺傳標記多的樣本進行基因型填充。對于沒有親緣關系的樣本,以上理論也基本適用,主要的差別在于無血緣關系的樣本之間共享的單體型比家系樣本之間的要短很多。對無親緣關系樣本進行基因型填充需要一個高密度遺傳標記構成的單體型圖譜作為參照。通過對比待填充樣本和參考模板,找到兩者之間共有的單體型,然后就可以將匹配上的參考模板中的位點復制到目標數據集中。
在圖a中,那個有大量缺失基因型的個體就是圖1中的個體。圖中下半部分由多個個體構成的參考單倍型集(reference haploypes)。這些參考集的基因型都是完整的。從這些參考數據集中,我們可以推斷整個群體的單倍型構成。然后,根據缺失樣本有限的基因型信息(僅有3個位點),就可以判斷這個樣本與參考單倍型集中的哪種單倍型最為相似(圖中分別對應紫色、綠色、黃色三種單倍型)。然后,將對應的最相似的單倍型賦予給該樣本,從而讓該樣本獲得完整的基因型,圖b

基因型填充常用軟件
目前,隨著計算生物學和生物信息學的發展,有很多算法和軟件都有能力完成基因型填充的任務。
這些方法基本可以分為兩大類:
(i)計算密集型,比如IMPUTE、 IMPUTE2、MACH、 和fastPHASE/BIMBAM。這種類型的方法在填充的過程中充分考慮到全部可以觀察到的基因型信息,使得對缺失值的估算更加精確;但以上大部分軟件都是針對人類的開發的。人類種群的遺傳特性是個體雜合率較高、近交率低、系譜關系來源隨機。很多植物,尤其作物的遺傳特性則和人類相反。以玉米為例,玉米在育種過程中,會伴隨大量的自交,因此純合度較高,而且系譜關系(雜交方式)往往可控。以上針對人類學開發的軟件就未必適用了。如果是遺傳特性與玉米類似的植物的GBS數據,可以采用Tassel中包含的imputation模塊。
(ii)計算高效型,比如PLINK、TUNA、WHAP和BEAGLE。此種算法僅僅關注與特定位點相鄰的一小部分標記的基因型,因此在計算上更加快捷。表1列出了4種常見的基因型填充軟件的特性
小結
對于人類的遺傳研究,由于其條件與研究已經非常充分,缺失數據填充是很有必要的一步。對于其他物種,在允許的條件下,可以借助GBS或者一些測得比較好的SNP數據庫去填充缺失的數據,如果條件不理想且自身雜交比較復雜,這步可以跳過。
轉自整理于:奧迪基因 http://www.omicshare.com/forum/thread-1293-1-1.html