GWAS流程

作者：rapunzel0103

鏈接：http://www.lxweimin.com/p/53362fe881cd

最近跑通了一遍GWAS分析，全程在linux操作，雖然具體還有好多需要微調的地方，先把代碼整理分享出來mark一下

前期準備

1.理論知識

強烈推薦百邁客云課堂課程GWAS生物信息培訓課程

或者可以看看我的gwas相關文章

GWAS基本分析內容（課程學習筆記）

常用GWAS統計方法和模型簡介（課程學習筆記）

臨床生物信息學中的GWAS分析（內附擴展閱讀）

精細定位——降低 GWAS的復雜度（文獻研讀）

2.數據下載

如果你沒有自己的數據又想做gwas分析的話，可以選擇3000水稻基因組的http://snp-seek.irri.org/數據庫直接下載，vcf、表型數據甚至plink bed/bim/fam文件直接下載，gwas結果也做到了可視化

另外推薦華農謝為博團隊開發的這個網站http://ricevarmap.ncpgr.cn/v2/非常好用，提供數據下載和gwas可視化結果）

基因型數據可以根據bioproject accession編號從NCBI上下載：

表型數據直接從網站上以excel或csv格式導出：

533份樣品下載和比對挺耗時和占內存的，建議保留bam文件，其他的包括fastq（由bam能轉成fq）、中間文件都可以刪掉，數據過濾質控很快，整個項目做下來大概耗時一個多月吧

第一步 SNP calling

需要安裝的軟件：BWA和GATK/samtools

一、BWA比對

1.構建index

bwa index -a is ref.fa ?或bwa index -a bwtsw ref.fa (>2G)

samtools faidx ref.fa

java -jar $picard/CreatSequenceDictionary.jar R=ref.fa O=ref.dict

2.每個樣分別比對到參考基因組

bwa mem? -t 5? -M -R "@RG\tID:A\tSM:A" ref.fa? A1_1.fq A1_2.fq > A1.sam ?&

bwa mem? -t 5? -M -R "@RG\tID:A\tSM:A" ref.fa? A2_1.fq A2_2.fq > A2.sam ? & ? ? 以此類推.......（-M 將shorter split hits標記為次優，可以兼容Picard．-R 每個標記號需不同，方便后面合并）

3.SortSam

java -jar $picard/SortSam.jar I=A.sam O=A1.sort.bam SO=coordinate

4.MarkDuplicates

java -jar $picard/MarkDuplicates.jar I=A1.sort.bam O=A1.Mark.bam M=A1.metrics?

二、SNP檢測

1.RealignerTargetCreator

java -jar $GATK -R $ref -T RealignerTargetCreator -I A1.Mark.bam -o A1.realign.interval_list

2.IndelRealigner

java -jar $GATK -R $ref -T IndelRealigner -I A1.Mark.bam? -o A1.realn.bam -targetIntervals A1.realign.interval_list

3.HaplotypeCaller

?java -jar $GATK -T HaplotypeCaller -R $ref -ERC GVCF -I A1.realn.bam? ? ?? --variant_index_type LINEAR --variant_index_parameter 128000 ? ? -o A1.gvcf

4.CombineGVCFs

?java -jar $GATK -T CombineGVCFs -R $ref --disable_auto_index_creation_and_locking_when_reading_rods --variant A1.gvcf?A2.gvcf?A3.gvcf??.... ? -o combine.gvcf ?(這一步需要把每個樣品的gvcf合并)

5.GenotypeGVCFs

java?? -jar $GATK -T GenotypeGVCFs -nt 4 -R $ref --disable_auto_index_creation_and_locking_when_reading_rods? ?? -o test_final.vcf --variant combine.gvcf

第二步基因型填補

需要安裝的軟件：Tassel/beagle等

1. tassel (-LDKNNilmputationPlugin參數有誤，沒有跑成功, 有朋友指出LDKNNi后面是大寫的i，不是小寫的L,以后再試試)

perl /home/user/soft/tassel_v5/run_pipeline.pl -Xms512m -Xmx5g -importGuess ?test_final.vcf -LDKNNiImputationPlugin -highLDSSites 50 -knnTaxa 10 -maxLDDistance 100000000 -endPlugin -export test.imputed.vcf -exportType VCF

也可以java -jar sTASSEL.jar 在窗口操作記得給服務器接顯示屏

2.beagle

java -jar beagle.08Jun17.d8b.jar gt=test_final.vcf?out=test.imputed.vcf

第三步數據篩選及格式轉換

需要安裝的軟件：plink等

1.按MAF>0.05和缺失率<0.1過濾

/home/user/soft/plink --vcf test.imputed.vcf--maf 0.05 --geno 0.1--recode vcf-iid --out test.filter --allow-extra-chr （非數字染色體號ChrUn/Sy用此參數, 建議盡量把染色體號轉成數字，另外需要對vcf中的標記ID進行編號）

2.對標記進行LD篩選

/home/user/soft/plink --vcf test.filter.vcf--indep-pairwise 50 10 0.2--out test.filterLD --allow-extra-chr （.in文件里是入選的標記id）

3.提取篩選結果

/home/user/soft/plink --vcf test.filterLD.vcf --make-bed--extracttest.filter.in --out? test.filter.prune.in

4.轉換成structure/admixture格式

/soft/plink --bfile test.filter.prune.in--recodestructure--out test.filter.prune.in ?#生成. recode.strct_in為structure輸入格式

/soft/plink --bfile test.filter.prune.in--recode12--out test.filter.prune.in ?#生成.ped為admixture輸入格式

第四步群體結構

需要安裝的軟件：structure/admixture等

這里我選了比較簡單admixture來做 k值范圍1到13

/soft/admixture_linux-1.3.0/admixture --cv test.filter.ped 1 >>log.txt

/soft/admixture_linux-1.3.0/admixture --cv test.filter.ped 2 >>log.txt

.......

/soft/admixture_linux-1.3.0/admixture --cv test.filter.ped 13 >>log.txt

wait

grep "CV error" log.txt >k_1to13

取CV error最小時的k值=10, ?其中test.filter.prune.in.10.Q結果文件作為關聯分析的輸入源文件（去掉最后一列添加表頭和ID）

第五步親緣關系/PCA(選做)

需要安裝的軟件: tassel等（ PCA分析可以用R包，已經做了群體結構這里就沒做PCA分析）

perl?/tassel_v5/run_pipeline.pl -importGuess test_impute.vcf -KinshipPlugin ?-method Centered_IBS -endPlugin -export test_kinship.txt -exportType SqrMatrix

第六步關聯分析

需要安裝的軟件: tassel/GAPIT/FaSt-LMM等（ GAPIT很強大，要裝很多R包，自動做圖可視化。FaSt-LMM以后打算嘗試一下）

輸入文件的格式需要手動修改一下，也比較簡單 (如圖)

test.best_k10.txt

test.trait.txt

test_kinship.txt

1.vcf轉hapmap格式

perl /tassel_v5/run_pipeline.pl -fork1 -vcf test.imputed.vcf? -export test -exportType Hapmap -runfork1

2.SNP位點排序

perl /tassel_v5/run_pipeline.pl -SortGenotypeFilePlugin -inputFile test.hmp.txt? -outputFile test_sort -fileType Hapmap

得到test.hmp.txt

3. GLM模型

perl /tassel_v5/run_pipeline.pl -fork1 -h test_sort.hmp.txt -fork2 -r test.trait.txt -fork3 -q test.best_k10.txt -excludeLastTrait -combine4 -input1 -input2 -input3 -intersect -glm -export test_glm -runfork1 -runfork2 -runfork3

4.MLM模型

perl /tassel_v5/run_pipeline.pl -fork1 -h test_sort.hmp.txt -fork2 -r test.trait.txt -fork3 -q test.best_k10.txt -excludeLastTrait -fork4 -k test_kinship.txt -combine5? -input1 -input2 -input3 -intersect -combine6 -input5 -input4 -mlm -mlmVarCompEst P3D -mlmCompressionLevel None -export test_mlm -runfork1 -runfork2 -runfork3

最后得到關聯分析的結果文件，喜大普奔！

當然GWAS分析需要根據實際項目材料的需要，靈活地選擇分析方法，理解統計學、群體遺傳學等原理，認識GWAS的特點和局限性還是很有必要的。這里只是簡單地在linux上跑通了一遍常用的流程，有很多R包MVP，GAPIT等等可以做并且一鍵出圖如CMplot～有很多不懂的地方需要多學習，畢竟大牛都是自己手動寫腳本來分析，不怎么用軟件的。。/(ㄒoㄒ)/

其他參考：http://blog.sina.com.cn/s/blog_83f77c940102w3d2.html

https://wenku.baidu.com/view/efdb4115a2161479171128e9.html

作者：rapunzel0103

鏈接：http://www.lxweimin.com/p/53362fe881cd

來源：簡書

著作權歸作者所有。商業轉載請聯系作者獲得授權，非商業轉載請注明出處。

?著作權歸作者所有,轉載或內容合作請聯系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 227,428評論 6贊 531
死咒
序言：濱河連續發生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發現死者居然都...
沈念sama閱讀 98,024評論 3贊 413
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 175,285評論 0贊 373
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 62,548評論 1贊 307
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 71,328評論 6贊 404
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發上，一...
開封第一講書人閱讀 54,878評論 1贊 321
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 42,971評論 3贊 439
雙鴛鴦連環套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 42,098評論 0贊 286
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發現了一具尸體，經...
沈念sama閱讀 48,616評論 1贊 331
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 40,554評論 3贊 354
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發現自己被綠了。大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 42,725評論 1贊 369
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,243評論 5贊 355
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發生泄漏。R本人自食惡果不足惜，卻給世界環境...
茶點故事閱讀 43,971評論 3贊 345
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 34,361評論 0贊 25
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 35,613評論 1贊 280
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 51,339評論 3贊 390
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 47,695評論 2贊 370

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

GWAS流程

GWAS流程

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

GWAS流程

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频