Wen Y-J, Zhang H, Ni Y-L, et al. Methodological implementation of mixed linear models in multi-locus genome-wide association studies. Briefings in Bioinformatics, 2017, 169(2): 2267–2275. DOI: 10.1093/bib/bbw145.
多位點基因組全基因組關聯研究中混合線性模型的方法實現
摘要
混合線性模型已被廣泛用于全基因組關聯研究(GWAS),但其在多基因座GWAS分析中的應用尚未被探索和評估。在這里,我們為GWAS實現了快速多基因座隨機SNP效應EMMA(FASTmrEMMA)模型。該模型建立在隨機單核苷酸多態性(SNP)效應和新算法的基礎上。該算法對多基因矩陣K的協方差矩陣和環境噪聲進行白化,并將非零特征值的數量指定為1。該模型首先選擇具有0.005個P值的所有推定的數量性狀核苷酸(QTN),然后將它們包括在用于真實QTN檢測的多基因座模型中。由于具有多位點特征,Bonferroni校正被較不嚴格的選擇標準所取代。模擬和實際數據分析的結果表明,FASTmrEMMA在QTN檢測和模型擬合方面更強大,在QTN效應估計中具有較少的偏差,并且比現有的單基因和多基因座方法(例如經驗貝葉斯)需要更少的運行時間,在漸進排他性關系(SUPER),高效混合模型關聯(EMMA),壓縮MLM(CMLM)和豐富CMLM(ECMLM)下的混合線性模型的解決。 FASTmrEMMA為多基因座GWAS提供了替代方案。
關鍵詞:全基因組關聯研究;混合線性模型;多位點模型;隨機效應
介紹
全基因組關聯研究(GWAS)已被廣泛用于人類,動物和植物遺傳學中數量性狀的遺傳解剖,特別是與基因組測序技術的輸出相結合。最常用的GWAS方法是混合線性模型(MLM)方法[1,2],因為它證明了從許多小遺傳效應(多基因背景)糾正inflation和控制種群分層偏差的有效性[3-7]。自Yu等[2]的MLM發表以來,已經提出了許多基于MLM的方法。然而,它們中的大多數通過一次測試一個標記包括一維基因組掃描,其涉及對顯著性測試的閾值的多次測試校正。廣泛使用的Bonferroni校正通常過于保守,無法檢測數量性狀的許多重要位點。
大多數數量性狀由一些具有大效應的基因和許多具有輕微影響的多基因控制。然而,GWAS的當前一維基因組掃描方法與這些性狀的真實遺傳模型不匹配。為了克服這個問題,已經開發了多位點方法;例如,貝葉斯最小絕對收縮和選擇算子(LASSO)[8],自適應混合LASSO [9],懲罰Logistic回歸[10?1],Elastic-Net [12],經驗貝葉斯(E-BAYES)[13]和EBAYES LASSO [14]。如果標記的數量是樣本大小的幾倍,則所有標記效果可以包括在單個模型中并以無偏的方式估計。但是,如果標記的數量比樣本大小大許多倍,則這些收縮方法將失敗。在這種情況下,我們應該考慮如何減少多基因座遺傳模型中標記效應的數量。例如,Zhou等[15]開發了貝葉斯稀疏線性混合模型,Moser等[16]提出了貝葉斯混合模型。在這些模型中,考慮了混合物分布中的兩到四個共同組分,并且僅估計了幾個方差分量。雖然在幾輪吉布斯采樣后最終考慮了遺傳模型中約500種效應,但計算時間成為這些貝葉斯方法的主要關注點。最近,Segura等[17]和Wang等[7]提出了多基因座MLM方法。然而,需要進一步改進快速算法。
Zhang等人的[1] MLM方法將數量性狀核苷酸(QTN)效應視為隨機的,其中需要估計由于QTN,多基因和殘留誤差引起的三個組分方差。如果效果的數量很大,則此計算需要很長時間。為了減少計算時間并增加QTN檢測的功效,已經提出了具有先前確定的群體參數(P3D)算法[18]和豐富的CMLM(ECMLM)[19]的壓縮MLM(CMLM)。另一方面,Kang等[3]提出了一種有效的混合模型關聯(EMMA),其他作者提出了替代方案,如EMMA eXpedited(EMMAX)[20],FaST-LMM [21],FaST-LMM-Select [22],全基因組EMMA [4]和全基因組快速關聯使用混合模型和回歸-Gamma(GRAMMAR-Gamma)[23]。最近,基于FaST-LMM開發了漸進排他性關系(SUPER)[24]下的混合線性模型的解決方案。在上述快速方法中,SNP效應被視為固定的。 Goddard等[25]指出,與固定模型相比,隨機標記模型具有幾個優點[7,26,27]。例如,隨機模型方法將估計的SNP效應收縮至零。然而,Goddard等[25]沒有提供有效的計算算法來估計標記效應。
在本文中,我們描述了一種新方法,通過為三個組分方差構建快速和新的矩陣變換,可以快速掃描整個基因組中的每個隨機效應標記。然后,將具有0.005個P值的所有推定的QTN置于一個多基因座遺傳模型中,并且通過EM經驗貝葉斯(EMEB)[28]估計這些QTN效應用于真正的QTN鑒定。這種新方法稱為快速多位點隨機SNP效應EMMA(FASTmrEMMA),通過分析擬南芥的實際數據[29]和一系列模擬研究進行驗證,并與其他方法比較,如E-BAYES (多基因座模型)[30],SUPER,EMMA,ECMLM和CMLM(單基因座模型)。
Case | FASTmrEMMA | E-BAYES | EMMA | CMLM | ECMLM | SUPER |
---|---|---|---|---|---|---|
Model | Multi-locus model | Multi-locus model | Single-locus model | Single-locus model | Single-locus model | Single-locus model |
QTN effect | Random | Random | Fixed | Fixed | Fixed | Fixed |
Population structure control | Yes | No | Yes | Yes | Yes | Yes |
Number of variance components | Three | No. of effects | Two | Two | Two | Two |
Polygenic-to-residual variance ratio | Fixed | NA | NA | Fixed | Fixed | NA |
Significant critical value | LOD (logarithm of odds)=3 | P-value=0.05 | P-value=0.05/p, where p is no. of markers P-value=0.05/p | P-value=0.05/p | P-value=0.05/p | |
Transformation matrix and performances |
|
Shrinkage is selective. Large effects subject to virtually no shrinkage while small effects are shrunken to zero. |
|
Kinship among individuals is replaced by the kinship among groups.Fit the groups as the random effect, and estimates population parameters only once and then fixes them to test genetic markers. | Kinship among individuals is replaced by the kinship among groups.Chooses the best combination between kinship algorithms and grouping algorithms. | Dramatically reduces the number of markers used to define individual relationships, and uses them in FaST-LMM. |
Running time | Fast | Depend on the number of effects. | Slow | Fast | Fast | Moderate |