孟德爾隨機(jī)化研究是一種近年來主要應(yīng)用于流行病學(xué)病因推斷上的一種數(shù)據(jù)分析方式。Katan1986 提出:不同基因型決定不同的中間表型,若該表型代表個體的某暴露特征,用基因型和疾病的關(guān)聯(lián)效應(yīng)能夠代表暴露因素對疾病的作用,由于等位基因遵循隨機(jī)分配原則,該作用不受傳統(tǒng)流行病學(xué)研究中的混雜因素和反向因果關(guān)聯(lián)所影響 (反向因果關(guān)聯(lián),指的是暴露和結(jié)局的時(shí)間順序顛倒)。
目前的問題是在觀察性研究中得到的結(jié)論往往是association而不是causation,而基于孟德爾獨(dú)立分配定律(配子形成時(shí)等位基因隨機(jī)分配到子代配子中),所以基因和疾病之間的關(guān)聯(lián)不會受到出生后的環(huán)境、社會經(jīng)濟(jì)地位、行為因素等常見混雜因素的干擾,且因果時(shí)序合理,使效應(yīng)估計(jì)值更接近真實(shí)情況。
原理:
基礎(chǔ)研究證實(shí),疾病發(fā)生均可追溯到基因水平,即基因型決定中間表型差異,該中間表型代表某暴露因素作用于該疾病。例如,研究飲酒量引起CHD發(fā)病的風(fēng)險(xiǎn),ALDH2基因多態(tài)性決定血中乙醛濃度,后者可影響飲酒行為,從而改變飲酒量,所以血乙醛濃度這一中間表型可間接代表飲酒量。因此,研究基因型和疾病的關(guān)聯(lián)可以模擬暴露因素和疾病的關(guān)聯(lián)。
要推斷得暴露因素與疾病結(jié)局的因果關(guān)系,需滿足3個重要的前提條件:
所選基因與中間表型或暴露因素高度相關(guān);
所選基因與混雜因素不相關(guān);
所選基因與疾病結(jié)局間條件獨(dú)立(也即將中間表型或暴露因素和基因型同時(shí)作為自變量聯(lián)立分析時(shí),基因型對疾病結(jié)局的效應(yīng)不再存在)。
滿足以上3個條件后,我們才能有理由說明基因是由中間表型介導(dǎo)作用于疾病,也即得到該中間表型或暴露是病因的推斷。
MendelianRandomization包可以用來計(jì)算孟德爾隨機(jī)化,它只需要匯總的數(shù)據(jù)就可以,即只需要回歸系數(shù)與標(biāo)準(zhǔn)誤。
# install package
if (!requireNamespace("MendelianRandomization"))
install.packages("MendelianRandomization")
library(MendelianRandomization)
該包自帶兩個數(shù)據(jù)集:
- ldlc, ldlcse, hdlc, hdlcse, trig, trigse, chdlodds, chdloddsse: 是28個SNP位點(diǎn)與LDL-cholesterol, HDL-cholesterol, triglycerides, and
coronary heart disease (CHD) risk表型關(guān)聯(lián)分析的beta-coefficients
和 standard errors (Waterworth et al (2011) "Genetic variants influencing circulating lipid levels and risk of coronary artery
disease", doi: 10.1161/atvbaha.109.201020.); - calcium, calciumse, fastgluc, fastglucse:7個SNP與/CASR/ gene region關(guān)聯(lián)分析,這7個SNP具有相關(guān)性,相關(guān)性系數(shù)存放在calc.rho變量里;
輸入的數(shù)據(jù)包括兩方面:
exposure暴露因素比如LDL-cholesterol的beta-coefficients
和 standard errorsoutcome結(jié)果比如coronary heart disease的beta-coefficients
和 standard errors
MRInputObject <- mr_input(bx = ldlc,
bxse = ldlcse,
by = chdlodds,
byse = chdloddsse)
MRInputObject # example with uncorrelated variants
MRInputObject.cor <- mr_input(bx = calcium,
bxse = calciumse,
by = fastgluc,
byse = fastglucse,
corr = calc.rho)
MRInputObject.cor # example with correlated variants
輸入的數(shù)據(jù)類型為:
該包支持三種因果評估方法:
- the inverse-variance weighted method
IVWObject <- mr_ivw(MRInputObject,
model = "default",
robust = FALSE,
penalized = FALSE,
correl = FALSE,
weights = "simple",
psi = 0,
distribution = "normal",
alpha = 0.05)
IVWObject <- mr_ivw(mr_input(bx = ldlc, bxse = ldlcse,
by = chdlodds, byse = chdloddsse))
IVWObject
返回的結(jié)果為:
- the median-based method
- the MR-Egger method
參考:1. 學(xué)海拾貝之統(tǒng)計(jì) https://mp.weixin.qq.com/s?src=11×tamp=1542788289&ver=1257&signature=Yy9zB0oHHML4HTgC-mVVyE9L9ByN4LSih72iyF4wW-HFd-C44WTmKoSs5G9YJYo751cuW8fcaBQLqlYQmsx1XwiHxMNQwsljMS7ScP*fqjCFbwXsEHqrPHJGuzKi513I&new=1
- MendelianRandomization v0.3.0: an R package for performing
Mendelian randomization analyses using summarized data