多基因風險評分是一個用來評估個體患某種疾病風險的方法,它是通過GWAS統計數據的基因型效應值來計算的。計算公式如下:
n: 納入的SNP的數量;
Xi:SNP I的基因型(0,1,2)
Wi:GWAS發現的SNP的權重,其中:
- 連續型變量的表型用Effect size表示,beta值
- 分類變量的表型用OR值表示
分析之前要對GWAS數據做質控,e.g. removing SNPs according to low genotyping rate, minor allele frequency>1%, removing SNPs with linkage disequilibrium with an R2 value greater than 0.1 in 500-kb
windows or imputation ‘info score>0.6’ and individuals with low genotyping rate.
plink --bfile ($target) \
--maf 0.05 \
--mind 0.1 \
--geno 0.1 \
--hwe 1e-6 \
--make-just-bim \
--make-just-fam \
--out ($target).qc
做完以上步驟,將--keep (target).qc.bim 命令添加到PRSice 軟件命令行中過濾SAMPLE和SNP。
安裝PRSice軟件:
git clone https://github.com/choishingwan/PRSice.git
cd PRSice
git checkout beta_testing
g++ --std=c++11 -I inc/ -isystem lib/ -lz -DNDEBUG -O2 -pthread src/*.cpp -o PRSice
# 安裝完成后測試下是否成功
./PRSice
# 自動下載需要的包
Rscript PRSice.R --dir .
出現以下界面,說明安裝成功:
需要輸入文件:
-
Base Dataset:以空格分割的SNP關聯分析文件(association analysis results for SNPs)
必須要有的幾列是:SNP, A1, OR or BETA, P,其他幾列不是必須要的,如下圖:
對于分類型表型提供OR值
image.png
對于連續型表型提供beta值
如果表頭沒有以上述名稱命名,必須用參數--chr, --A1, --A2, --stat, --snp, --bp, --se, --pvalue指明表頭。
比如下表:
image.png
參數可以這樣設置:--snp SNP --chr CHR --bp BP --A1 A1 --A2 A2 --stat OR --se SE --pvalue P
或者:--snp 0 --chr 1 --bp 2 --A1 3 --A2 4 --stat 5 --se 6 --pvalue 7 --index
如果文件中含有imputation info score 或者MAF,可以用--info-base <Info Name>,<Info Threshold> 和 --maf-base <MAF Name>,<MAF Threshold>參數對SNP進行過濾。
也可以對case/control分別進行過濾 --maf-base <Name for Control>,<Threshold for Control>:<Name for Case>,<Threshold for Case>
Target Dataset 是plink產生的二進制文件.bed, .bim, 和 .fam file
如果fam文件沒有表型數據,可以另外提供Phenotype files,加上參數--pheno-file就可以了。
表型文件格式為FID IID pheno,以空格或tab鍵隔開,缺失值用NA或-9表示。也可以用--pheno-col A,B,C,D指定多個表型。LD reference
當目標樣本數量較少(e.g. < 500 samples)時,可以用reference panel來提高LD評估水平,參數為--ld <LD refernce>Clumping
PRSice會自動評估SNP的距離并移除高LD的SNP,參數:--clump-kb, --clump-r2, --clump-p、--no-clumpPRS calculation
PRS計算可以有不同的model如 (e.g. add, dom, het, rec)樣本基因型缺失,參數--missing;
If --missing NO_MEAN_IMPUTATION is set, the SNP for the missing samples will be excluded. Alternatively, if --missing CENTER is set, all PRS calculated will be minused by the MAF of the SNP (therefore, missing samples will have PRS of 0).
輸出結果:
- Bar Plot,一般命名為[Name]BARPLOT[date].png,bar plot displaying the model fit of the PRS at P-value threshold as indicated by --bar-levels, The tallest bar indicates the best fit polygenic risk score (PRS) for the disease,only variants exceeding a P-value threshold, PT, are included,本例中最高的bar對應的P的閾值為4.7*10-18,該閾值可以解釋約5%的疾病變異。
-
High Resolution Plot, 一般命名為[Name]HIGH-RES_PLOT[date].png,This plot present the model fit of PRS calculated at all P-value thresholds. 最高點代表best-fit PRS
image.png -
Quantile Plots,[Name]QUANTILE_PLOT[date].png,The quantile plot provide an illustration of the effect of increasing PRS on predicted risk of phenotype.
image.png 示例:對于分類變量來說:
Rscript PRSice.R --dir . \
--prsice ./PRSice \
--base TOY_BASE_GWAS.assoc \
--target TOY_TARGET_DATA \
--thread 1 \
--stat OR \
--binary-target T
- 對于連續型變量
Rscript PRSice.R --dir . \
--prsice ./PRSice \
--base TOY_BASE_GWAS.assoc \
--target TOY_TARGET_DATA \
--thread 1 \
--stat BETA \
--beta \
--binary-target F
參考:1. A guide to performing Polygenic Risk Score analyses
- GitHub - choishingwan/PRSice: A software package for calculating, applying, evaluating and plotting the results of polygenic risk scores https://github.com/choishingwan/PRSice/
- https://choishingwan.github.io/PRSice/step_by_step/