GWAS質控對于后續關聯分析及曼哈頓圖和QQ圖的結果至關重要,本文參考多種資料,試圖評價質控對結果的影響,為大家分析GWAS結果做一個參考。
- 首先文獻中認為從成千上萬的病例和對照中移除少數人對整體幾乎沒有影響,并且從目前GWAS的大量基因分型SNP中除去小部分可能有關聯的SNP也不會顯著降低研究的整體效能,但研究中每個刪除的SNP都有可能是一個被忽略的疾病關聯,因此認為去除一個SNP的影響潛在地大于去除一個個體(盡管基因型插補可用于恢復這些SNP),故主張先在“每個被試”基礎上實施QC,后在“每個SNP”基礎上進行QC,以最大限度地提高研究中剩余的SNP數。這種方法可防止由于小部分基因分型差的個體而錯誤地去除某個SNP,但是可能會由于小部分基因分型差的SNP而錯誤地去除一些個體。
[圖片上傳中...(image.png-7e3fc5-1556010351113-0)]
一般質控步驟:
樣本的質控(Per-individual QC)
1、刪除性別錯誤的個體
通過X染色體雜合率計算性別,性別錯誤的個體可能存在DNA污染的問題
2、刪除SNP缺失率過高或雜合率過高的個體,如>95%
- SNP缺失率過高說明DNA質量及分型質量不好;
- 雜合率過高說明樣本可能有污染,過低說明樣本可能有親緣關系。一般case/control研究的樣本都無親緣關系,如果有一級或二級親緣關系的樣本,該家族基因型會導致整個群體基因型偏倚。
- 雜合率=(N ? O)/N,N:非缺失基因型數量,O:觀察到的個體純合基因型數量,一般刪除超過±3 SD的樣本
3、刪除有親緣關系的樣本 - 親緣關系可以用identity by state(IBS)來衡量,計算之前首先要保證SNP是相互獨立的,這就要先把基因組中連鎖區域的SNP去掉(如HLA區域的SNP),一般設置滑動窗口(如 50 kb),計算該窗口內的SNP連鎖率,將大于閾值(一般設置r2 > 0.2)的SNP都去掉。
- 一般IBS=1認為是同一個樣本或同卵雙胞胎,IBD = 0.5是一級親屬,IBD = 0.25是二級親屬,IBD = 0.125是三級親屬,另外有可能是樣本污染或者分型錯誤導致。一般設置閾值為IBD > 0.1875。
4、人群層次矯正 - 混雜因素是造成case-control差異的主要原因,特別是人群層次(population stratification)。
- 校正人群層次方法最常用的是組成分分析(principal component analysis (PCA)),PCA將高維的數據提取為低維數據,以便用幾個主成分來代表整個數據。
- 一般將前10個PCA成分作為協變量加入后面的關聯分析模型,但是加入幾個根據經驗調整。
位點的質控(Per-marker QC)
位點質控是GWAS成功與否的核心,因為可能會把與疾病相關的SNP位點刪掉。
1、刪除缺失率過高的SNP位點
根據情況可以設置閾值為95%-98%。一般先設置個寬松的閾值,如0.2,經過樣本質控后再設置比較嚴格的閾值,如0.02
2、刪除偏離哈迪溫伯格平衡的SNP位點(HWE)
偏離HWE的SNP位點可能是分型錯誤,但是case中偏離HWE的位點可能與表型相關,因此case和control閾值不一樣。一般case設置為1e-6,control設置為1e-10;對于較小的數據可以設置為1e10-5。plink軟件會自動只對control進行HWE質控。
3、刪除case和control中缺失率不同的SNP位點
case和control中缺失率不同可能意味著case和control不是一批做出來的,刪除這種位點可以有效減少混雜因素的影響。
4、刪除等位基因頻率(MAF)較小的SNP位點
芯片中MAF較小的SNP由于算法原因錯誤率較高,因此一般將MAF 1–2%以下的刪除,但是樣本量較小的話該閾值要提高,樣本量小分型的準確度就小。另外MAF較小的位點不適用關聯分析的統計方法。
候選基因方法研究的質控(Candidate-gene association)
- 候選基因方法研究的質控與GWAS不同,GWAS研究中99%的SNP位點與表型都無關,這些位點可以用來發現混雜因素,但是候選基因方法就不行。候選基因方法的SNP位點經過選擇,本身位點較少,與表型無關的SNP也較少,因此不能通過位點的分型失敗率和雜合率來評估DNA質量,群體信息和親緣關系也沒法評估。
- 可以進行的是對樣本的質控,但是閾值需要根據SNP的數量進行調整。
- 如果實驗樣本與GWAS樣本數量類似,仍然可以采用GWAS對位點的過濾方法
- 缺失率>5%,最好是檢測分型的方法是否有問題,control中對HWE的過濾也可以執行。
基因型填補(imputation)
待補充
填補后質控(Post-imputation quality control)
- 千人基因組大概有83 million變異位點,經過填補后有許多質量不好的位點,需要過濾掉。
- 去除MAF = 0的位點
- 去除MAF<0.01 和 info>0.3的位點。info值用來衡量填充位點的質量,一般較差的位點info <0.15,較好的位點info >0.85。所以過濾閾值一般在0.15-0.85之間。對于同一個位點來說,MAF值越小,info值也越小。可以將MFA值和info值畫出柱狀圖,找到一個比較好的閾值進行過濾。
- 去除缺失率過多的位點(98%以上)
相關軟件
PLINK, GenABEL, GS2、snpMatrix
參考:Anderson CA, Pettersson FH, Clarke GM, Cardon LR, Morris AP, Zondervan KT. Data quality control in genetic case-control association studies. Nat Protoc 2010; 5: 1564-1573.
Marees AT, de Kluiver H, Stringer S, Vorspan F, Curis E, Marie-Claire C et al. A tutorial on conducting genome-wide association studies: Quality control and statistical analysis. Int J Meth Psych Res 2018; 27: e1608.