跑通GWAS,用這些腳本就夠了

最近跑通了一遍GWAS分析,全程在linux操作,雖然具體還有好多需要微調的地方,先把代碼整理分享出來mark一下

前期準備

1.理論知識

強烈推薦百邁客云課堂課程GWAS生物信息培訓課程?

或者可以看看我的gwas相關文章

GWAS基本分析內容?(課程學習筆記)

常用GWAS統計方法和模型簡介?(課程學習筆記)

臨床生物信息學中的GWAS分析?(內附擴展閱讀)

精細定位——降低 GWAS的復雜度?(文獻研讀)

2.數據下載

如果你沒有自己的數據又想做gwas分析的話,可以選擇3000水稻基因組的http://snp-seek.irri.org/數據庫直接下載,vcf、表型數據甚至plink bed/bim/fam文件直接下載,gwas結果也做到了可視化

另外推薦華農謝為博團隊開發的這個網站?http://ricevarmap.ncpgr.cn/v2/?非常好用,提供數據下載和gwas可視化結果)

基因型數據可以根據bioproject accession編號從NCBI上下載:

表型數據直接從網站上以excel或csv格式導出:

533份樣品下載和比對挺耗時和占內存的,建議保留bam文件,其他的包括fastq(由bam能轉成fq)、中間文件都可以刪掉,數據過濾質控很快,整個項目做下來大概耗時一個多月吧

第一步 SNP calling

需要安裝的軟件:BWA和GATK/samtools

一、BWA比對

1.構建index

bwa index -a is ref.fa ?或bwa index -a bwtsw ref.fa (>2G)

samtools faidx ref.fa

java -jar $picard/CreatSequenceDictionary.jar R=ref.fa O=ref.dict

2.每個樣分別比對到參考基因組

bwa mem? -t 5? -M -R "@RG\tID:A\tSM:A" ref.fa? A1_1.fq A1_2.fq > A1.sam ?&

bwa mem? -t 5? -M -R "@RG\tID:A\tSM:A" ref.fa? A2_1.fq A2_2.fq > A2.sam ? & ? ? 以此類推.......(-M 將shorter split hits標記為次優,可以兼容Picard.-R 每個標記號需不同,方便后面合并)

3.SortSam

java -jar $picard/SortSam.jar I=A.sam O=A1.sort.bam SO=coordinate

4.MarkDuplicates

java -jar $picard/MarkDuplicates.jar I=A1.sort.bam O=A1.Mark.bam M=A1.metrics?

二、SNP檢測

1.RealignerTargetCreator

java -jar $GATK -R $ref -T RealignerTargetCreator -I A1.Mark.bam -o A1.realign.interval_list

2.IndelRealigner

java -jar $GATK -R $ref -T IndelRealigner -I A1.Mark.bam? -o A1.realn.bam -targetIntervals A1.realign.interval_list

3.HaplotypeCaller

?java -jar $GATK -T HaplotypeCaller -R $ref -ERC GVCF -I A1.realn.bam? ? ? --variant_index_type LINEAR --variant_index_parameter 128000 ? ? -o A1.gvcf

4.CombineGVCFs

?java -jar $GATK -T CombineGVCFs -R $ref --disable_auto_index_creation_and_locking_when_reading_rods --variant A1.gvcf?A2.gvcf?A3.gvcf??.... ? -o combine.gvcf ?(這一步需要把每個樣品的gvcf合并)

5.GenotypeGVCFs

java? -jar $GATK -T GenotypeGVCFs -nt 4 -R $ref --disable_auto_index_creation_and_locking_when_reading_rods? ? -o test_final.vcf --variant combine.gvcf

第二步 基因型填補

需要安裝的軟件:Tassel/beagle等

1. tassel (-LDKNNilmputationPlugin參數有誤,沒有跑成功, 有朋友指出LDKNNi后面是大寫的i,不是小寫的L,以后再試試)

perl /home/user/soft/tassel_v5/run_pipeline.pl -Xms512m -Xmx5g -importGuess ?test_final.vcf -LDKNNiImputationPlugin -highLDSSites 50 -knnTaxa 10 -maxLDDistance 100000000 -endPlugin -export test.imputed.vcf -exportType VCF

也可以java -jar sTASSEL.jar 在窗口操作 記得給服務器接顯示屏

2.beagle

java -jar beagle.08Jun17.d8b.jar gt=test_final.vcf?out=test.imputed.vcf

第三步 數據篩選及格式轉換

需要安裝的軟件:plink等

1.按MAF>0.05和缺失率<0.1過濾

/home/user/soft/plink --vcf test.imputed.vcf --maf 0.05 --geno 0.1 --recode vcf-iid --out test.filter --allow-extra-chr (非數字染色體號ChrUn/Sy用此參數, 建議盡量把染色體號轉成數字,另外需要對vcf中的標記ID進行編號)

2.對標記進行LD篩選

/home/user/soft/plink --vcf test.filter.vcf --indep-pairwise 50 10 0.2 --out test.filterLD --allow-extra-chr (.in文件里是入選的標記id)

3.提取篩選結果

/home/user/soft/plink --vcf test.filterLD.vcf --make-bed --extract test.filter.in --out? test.filter.prune.in

4.轉換成structure/admixture格式

/soft/plink --bfile test.filter.prune.in --recode structure --out test.filter.prune.in ?#生成. recode.strct_in為structure輸入格式

/soft/plink --bfile test.filter.prune.in --recode 12 --out test.filter.prune.in ?#生成.ped為admixture輸入格式

第四步 群體結構

需要安裝的軟件:structure/admixture等

這里我選了比較簡單admixture來做 k值范圍1到13

/soft/admixture_linux-1.3.0/admixture --cv test.filter.ped 1 >>log.txt

/soft/admixture_linux-1.3.0/admixture --cv test.filter.ped 2 >>log.txt

.......

/soft/admixture_linux-1.3.0/admixture --cv test.filter.ped 13 >>log.txt

wait

grep "CV error" log.txt >k_1to13

取CV error最小時的k值=10, ?其中test.filter.prune.in.10.Q結果文件作為關聯分析的輸入源文件(去掉最后一列 添加表頭和ID)

第五步 親緣關系/PCA(選做)

需要安裝的軟件: tassel等( PCA分析可以用R包,已經做了群體結構這里就沒做PCA分析)

perl?/tassel_v5/run_pipeline.pl -importGuess test_impute.vcf -KinshipPlugin ?-method Centered_IBS -endPlugin -export test_kinship.txt -exportType SqrMatrix

第六步 關聯分析

需要安裝的軟件: tassel/GAPIT/FaSt-LMM等( GAPIT很強大,要裝很多R包,自動做圖可視化。FaSt-LMM以后打算嘗試一下)

輸入文件的格式需要手動修改一下,也比較簡單 (如圖)

test.best_k10.txt
test.trait.txt
test_kinship.txt

1.vcf轉hapmap格式

perl /tassel_v5/run_pipeline.pl -fork1 -vcf test.imputed.vcf? -export test -exportType Hapmap -runfork1

2.SNP位點排序

perl /tassel_v5/run_pipeline.pl -SortGenotypeFilePlugin -inputFile test.hmp.txt? -outputFile test_sort -fileType Hapmap

得到test.hmp.txt

3. GLM模型

perl /tassel_v5/run_pipeline.pl -fork1 -h test_sort.hmp.txt -fork2 -r test.trait.txt -fork3 -q test.best_k10.txt -excludeLastTrait -combine4 -input1 -input2 -input3 -intersect -glm -export test_glm -runfork1 -runfork2 -runfork3

4.MLM模型

perl /tassel_v5/run_pipeline.pl -fork1 -h test_sort.hmp.txt -fork2 -r test.trait.txt -fork3 -q test.best_k10.txt -excludeLastTrait -fork4 -k test_kinship.txt -combine5? -input1 -input2 -input3 -intersect -combine6 -input5 -input4 -mlm -mlmVarCompEst P3D -mlmCompressionLevel None -export test_mlm -runfork1 -runfork2 -runfork3

最后得到關聯分析的結果文件,喜大普奔!

當然GWAS分析需要根據實際項目材料的需要,靈活地選擇分析方法,理解統計學、群體遺傳學等原理,認識GWAS的特點和局限性還是很有必要的。這里只是簡單地在linux上跑通了一遍常用的流程,有很多R包MVP,GAPIT等等可以做并且一鍵出圖如CMplot~有很多不懂的地方需要多學習,畢竟大牛都是自己手動寫腳本來分析,不怎么用軟件的。。/(ㄒoㄒ)/


其他參考:http://blog.sina.com.cn/s/blog_83f77c940102w3d2.html

https://wenku.baidu.com/view/efdb4115a2161479171128e9.html

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容

  • ANNOVAR的安裝 ANNOVAR網址 log in之后才能download,使用教育機構后綴的郵箱即可注冊。 ...
    面面的徐爺閱讀 23,124評論 1 26
  • 這篇文章很長,超過1萬字,是本系列中最重要的一篇,因為我并非只是在簡單地告訴大家幾條硬邦邦的操作命令。對于新手而言...
    黃樹嘉閱讀 34,425評論 20 196
  • 古代雜交事件為慈鯛科魚類的適應輻射提供動力 Ancient hybridization fuels rapid c...
    智取鳥氨酸閱讀 4,736評論 0 5
  • 在這個夜晚,想寫一寫文字,不虛不偽、平平淡淡地寫,你靜靜地看。 我有一個習慣,在一件事發生很久,我怕忘記我會想要寫...
    細愫閱讀 285評論 0 2
  • 有人在你十八歲的時候掏空口袋送了你一雙自以為非常棒的高跟鞋。那么,二十歲的時候又是誰會送你一件晚禮服。
    白玉靈閱讀 205評論 0 0