多基因風(fēng)險(xiǎn)評(píng)分是一個(gè)用來(lái)評(píng)估個(gè)體患某種疾病風(fēng)險(xiǎn)的方法,它是通過(guò)GWAS統(tǒng)計(jì)數(shù)據(jù)的基因型效應(yīng)值來(lái)計(jì)算的。計(jì)算公式如下:
n: 納入的SNP的數(shù)量;
Xi:SNP I的基因型(0,1,2)
Wi:GWAS發(fā)現(xiàn)的SNP的權(quán)重,其中:
- 連續(xù)型變量的表型用Effect size表示,beta值
- 分類變量的表型用OR值表示
分析之前要對(duì)GWAS數(shù)據(jù)做質(zhì)控,e.g. removing SNPs according to low genotyping rate, minor allele frequency>1%, removing SNPs with linkage disequilibrium with an R2 value greater than 0.1 in 500-kb
windows or imputation ‘info score>0.6’ and individuals with low genotyping rate.
plink --bfile ($target) \
--maf 0.05 \
--mind 0.1 \
--geno 0.1 \
--hwe 1e-6 \
--make-just-bim \
--make-just-fam \
--out ($target).qc
做完以上步驟,將--keep (target).qc.bim 命令添加到PRSice 軟件命令行中過(guò)濾SAMPLE和SNP。
安裝PRSice軟件:
git clone https://github.com/choishingwan/PRSice.git
cd PRSice
git checkout beta_testing
g++ --std=c++11 -I inc/ -isystem lib/ -lz -DNDEBUG -O2 -pthread src/*.cpp -o PRSice
# 安裝完成后測(cè)試下是否成功
./PRSice
# 自動(dòng)下載需要的包
Rscript PRSice.R --dir .
出現(xiàn)以下界面,說(shuō)明安裝成功:
需要輸入文件:
-
Base Dataset:以空格分割的SNP關(guān)聯(lián)分析文件(association analysis results for SNPs)
必須要有的幾列是:SNP, A1, OR or BETA, P,其他幾列不是必須要的,如下圖:
對(duì)于分類型表型提供OR值
image.png
對(duì)于連續(xù)型表型提供beta值
如果表頭沒(méi)有以上述名稱命名,必須用參數(shù)--chr, --A1, --A2, --stat, --snp, --bp, --se, --pvalue指明表頭。
比如下表:
image.png
參數(shù)可以這樣設(shè)置:--snp SNP --chr CHR --bp BP --A1 A1 --A2 A2 --stat OR --se SE --pvalue P
或者:--snp 0 --chr 1 --bp 2 --A1 3 --A2 4 --stat 5 --se 6 --pvalue 7 --index
如果文件中含有imputation info score 或者M(jìn)AF,可以用--info-base <Info Name>,<Info Threshold> 和 --maf-base <MAF Name>,<MAF Threshold>參數(shù)對(duì)SNP進(jìn)行過(guò)濾。
也可以對(duì)case/control分別進(jìn)行過(guò)濾 --maf-base <Name for Control>,<Threshold for Control>:<Name for Case>,<Threshold for Case>
Target Dataset 是plink產(chǎn)生的二進(jìn)制文件.bed, .bim, 和 .fam file
如果fam文件沒(méi)有表型數(shù)據(jù),可以另外提供Phenotype files,加上參數(shù)--pheno-file就可以了。
表型文件格式為FID IID pheno,以空格或tab鍵隔開(kāi),缺失值用NA或-9表示。也可以用--pheno-col A,B,C,D指定多個(gè)表型。LD reference
當(dāng)目標(biāo)樣本數(shù)量較少(e.g. < 500 samples)時(shí),可以用reference panel來(lái)提高LD評(píng)估水平,參數(shù)為--ld <LD refernce>Clumping
PRSice會(huì)自動(dòng)評(píng)估SNP的距離并移除高LD的SNP,參數(shù):--clump-kb, --clump-r2, --clump-p、--no-clumpPRS calculation
PRS計(jì)算可以有不同的model如 (e.g. add, dom, het, rec)樣本基因型缺失,參數(shù)--missing;
If --missing NO_MEAN_IMPUTATION is set, the SNP for the missing samples will be excluded. Alternatively, if --missing CENTER is set, all PRS calculated will be minused by the MAF of the SNP (therefore, missing samples will have PRS of 0).
輸出結(jié)果:
- Bar Plot,一般命名為[Name]BARPLOT[date].png,bar plot displaying the model fit of the PRS at P-value threshold as indicated by --bar-levels, The tallest bar indicates the best fit polygenic risk score (PRS) for the disease,only variants exceeding a P-value threshold, PT, are included,本例中最高的bar對(duì)應(yīng)的P的閾值為4.7*10-18,該閾值可以解釋約5%的疾病變異。
-
High Resolution Plot, 一般命名為[Name]HIGH-RES_PLOT[date].png,This plot present the model fit of PRS calculated at all P-value thresholds. 最高點(diǎn)代表best-fit PRS
image.png -
Quantile Plots,[Name]QUANTILE_PLOT[date].png,The quantile plot provide an illustration of the effect of increasing PRS on predicted risk of phenotype.
image.png 示例:對(duì)于分類變量來(lái)說(shuō):
Rscript PRSice.R --dir . \
--prsice ./PRSice \
--base TOY_BASE_GWAS.assoc \
--target TOY_TARGET_DATA \
--thread 1 \
--stat OR \
--binary-target T
- 對(duì)于連續(xù)型變量
Rscript PRSice.R --dir . \
--prsice ./PRSice \
--base TOY_BASE_GWAS.assoc \
--target TOY_TARGET_DATA \
--thread 1 \
--stat BETA \
--beta \
--binary-target F
參考:1. A guide to performing Polygenic Risk Score analyses
- GitHub - choishingwan/PRSice: A software package for calculating, applying, evaluating and plotting the results of polygenic risk scores https://github.com/choishingwan/PRSice/
- https://choishingwan.github.io/PRSice/step_by_step/