GATK進行SNP calling

GATK(全稱The Genome Analysis Toolkit)是Broad Institute開發的用于二代重測序數據分析的一款軟件,里面包含了很多有用的工具。

需要的文件

參考基因組:reference.fasta

測序文件:bam 格式比對結果文件

所需軟件: samtools 、gatk 、?Picard


一、創建gatk所需的索引文件

GATK需要reference序列是經過index的,而且需要兩個index文件,一個是后綴名為.fai的,另外一個是后綴名稱為.dict的,缺少這些文件,或者兩個文件中的內容不一致都可能導致程序報錯。

samtools faidx reference.fasta? ? ?#生成后綴名為.fai

gatk CreateSequenceDictionary-R reference.fasta? -O reference.dict? ?#生成后綴名為.dict

二、?增加GATk 要求的read group的格式

GATK要求輸入的bam文件包含Read groups,如果沒有就會報錯。

Read group是@RG開始,包括以下幾個部分:

ID= Read group identifier

每一個Read group獨有的ID;

PU= Platform Unit

PL= Platform/technology used to produce the read

測序使用的平臺: ILLUMINA, SOLID, LS454, HELICOS and PACBIO。

LB= DNA preparation library identifier

對一個read group的reads進行重復序列標記時,需要使用LB來區分reads來自那條lane;有時候,同一個庫可能在不同的lane上完成測序;為了加以區分,同一個或不同庫只要是在不同的lane產生的reads都要單獨給一個ID。

SM= Sample

reads屬于的樣品名,自由設定

可以在BWA比對時增加read group:

bwa mem -R '@RG\tID:group\tLB:library\tPL:illumina\tPU:unit1\tSM:676R' ~/ref/reference.fasta read1.fq read2.fq > bulk.sam

或者使用Picard增加:

Picard: 它是目前最著名的組學研究中心-Broad研究所開發的一款強大的NGS數據處理工具,功能方面和Samtools有些重疊,但更多的是互補,它是由java編寫的,我們直接下載最新的.jar包就行了。

下載鏈接:wget https://github.com/broadinstitute/picard/releases/download/2.25.5/picard.jar

安裝? ??

java -jar picard.jar

執行命令:

java -jar ~/biosoft/picard.jar AddOrReplaceReadGroups I=bulk.bam O=bulk.add.bam RGID=4 RGLB=library1 RGPL=illumina RGPU=unit1 SORT_ORDER=coordinate RGSM=M05


三、去除PCR重復序列

gatk MarkDuplicates -I bulk.add.bam -O bulk.marked.bam -M bu.metrics 1>log.mark 2>&1

四、VCF輸出

#先生成gvcf格式文件? ? ?gvcf可記錄所有位點的變異情況

gatk HaplotypeCaller -R ?~/ref/reference.fasta?? -I bulk.marked.bam -O output.g.vcf.gz -ERC GVCF

#然后在從gvcf提取變異情況

gatk GenotypeGVCFs -R ?~/ref/reference.fasta?? -V output.g.vcf.gz -O output.vcf.gz

?或者直接生成vcf文件

gatk HaplotypeCaller -R ~/ref/reference.fasta -I bulk.marked.bam -O? ?out.vcf


五、執行篩選

gatk VariantFiltration \

? ? -V? out.vcf \

? ? -filter "QD < 2.0" --filter-name "QD2" \

? ? -filter "QUAL < 30.0" --filter-name "QUAL30" \

? ? -filter "FS > 60.0" --filter-name "FS60" \

? ? -filter "MQ < 40.0" --filter-name "MQ40" \

? ? -filter "MQRankSum < -12.5" --filter-name "MQRankSum-12.5" \

? ? -filter "ReadPosRankSum < -8.0" --filter-name "ReadPosRankSum-8" \

? ? -O? out_prefix.vcf


六、合并VCF文件

第一種方法:

gatk -T CombineVariants -V file1.vcf.gz -V file2.vcf.gz -o merge.vcf.gz -R ref.fa

第二種方法:

bcftools merge file1.vcf.gz? file2.vcf.g? -o merge_bcftools.vcf

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,156評論 6 531
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,401評論 3 415
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,069評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,873評論 1 309
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,635評論 6 408
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,128評論 1 323
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,203評論 3 441
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,365評論 0 288
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,881評論 1 334
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,733評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,935評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,475評論 5 358
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,172評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,582評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,821評論 1 282
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,595評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,908評論 2 372

推薦閱讀更多精彩內容