GATK4.0 和之前的版本相比還是有較大的不同,更加趨于流程化。
軟件安裝
點擊此處 查看最新版本
wget https://github.com/broadinstitute/gatk/releases/download/4.1.5.0/gatk-4.1.5.0.zip
unzip gatk-4.1.5.0.zip
GATK 簡單說明
## 幫助信息
gat --help
## 列出所有的工具
gatk --list
## 工具的說明,比如以VariantAnnotator 為例
gatk VariantAnnotator --help
GATK分析簡要流程
所需數據
- ref.fa
- reads1.fq
- reads2.fq
建立索引
bwa index ref.fa
samtools faidx ref.fa
gatk CreateSequenceDictionary -R ref.fa -O ref.dict
##
-R Input reference fasta or fasta.gz Required
-O 輸出文件
比對
## bwa 比對
bwa mem -t 4 -R '@RG\tID:id1\tPL:illumina\tSM:test' ref.fa test_1.fq test_2.fq | samtools view -bS - >test.bam
##參數
-R 設置reads group,gatk必須要的信息,其中ID,PL和SM信息是必須要的
## 排序
samtools sort -@ 3 -o test.sorted.bam test.bam
rm test.bam
## 也可以用GATK的SortSam進行排序,可以對SAM,或者BAM直接排序
gatk SortSam -I test.bam -O test.sorted.bam -SO coordinate --CREATE_INDEX true
## c參數
-I: 輸入bam或者sam
-O: 輸出文件
-SO:排序方式:queryname 或者coordinate
--CREATE_INDEX: 是否建立索引
GATK 要求read group的格式
ID = Read group identifier
每一個read group 獨有的ID,每一對reads 均有一個獨特的ID,可以自定義命名;
PL = Platform
測序平臺;ILLUMINA, SOLID, LS454, HELICOS and PACBIO,不區分大小寫;
SM = sample
reads屬于的樣品名;SM要設定正確,因為GATK產生的VCF文件也使用這個名字;
LB = DNA preparation library identifier
對一個read group的reads進行重復序列標記時,需要使用LB來區分reads來自那條lane;有時候,同一個庫可能在不同的lane上完成測序;為了加以區分,
同一個或不同庫只要是在不同的lane產生的reads都要單獨給一個ID. 一般無特殊說明,成對兒read屬于同一庫,可自定義,比如:library1
若是忘記添加read group信息還以通過 AddOrReplaceReadGroups 添加
gatk AddOrReplaceReadGroups -I .bam -O .add.bam -LB library1 -PL illumina -PU pl1 -SM name
##參數
-I Input file (BAM or SAM or a GA4GH url);
-O Output file (BAM or SAM);
-LB Read-Group library;
-PL Read-Group platform (e.g. ILLUMINA, SOLID);
-PU Read-Group platform unit (eg. run barcode);
-SM Read-Group sample name
標記重復序列
gatk MarkDuplicates -I test.sorted.bam -O test.sorted.markdup.bam -M test.sorted.markdup_metrics.txt
##參數
-I 排序后的bam或者sam文件
-M 輸出重復矩陣
-O 輸出文件
## 建立索引
samtools index test.sorted.markup.bam
檢測變異
##兩種方法
##(1)多樣本一起call,此次只有一個樣本,若有多個樣本,則繼續用 -I 參數添加即可
gatk --java-options -Xmx4G HaplotypeCaller -I test.sorted.markup.bam -O test.vcf -R ref.fa
##(2)單個樣本call,然后在合并
## 生成中間文件gvcf
gatk --java-options -Xmx4G HaplotypeCaller -I test.sorted.markup.bam -O test.g.vcf -R ref.fa --emit-ref-confidence GVCF
##通過gvcf檢測變異, -V 添加上步得到的gvcf
gatk GenotypeGVCFs -R ref.fa -V test.g.vcf -O test.vcf
##參數
-I BAM/SAM/CRAM file
-O 輸出文件
-R 參考基因組
--java-options: 若設置java則需要添加
-Xmx4G:內存為4G,防止內存太大
-V A VCF file containing variants
-L 第一種方法可單獨對染色體分開進行call,而后用GatherVcfs可以合并,可加快速度
4.0以后GenotypeGVCFs只能接受single-sample GVCF from HaplotypeCaller or a multi-sample GVCF from CombineGVCFs orGenomicsDBImport,若有多個g.vcf 可以使用上述兩種工具進行合并成一個單獨的文件即可.
提取SNP,INDEL
## 提取SNP
gatk SelectVariants -V test.vcf -O test.snp.vcf --select-type-to-include SNP
## 提取INDEL
gatk SelectVariants -V test.vcf -O test.indel.vcf --select-type-to-include INDEL
##參數
-O 輸出vcf文件
-V 輸入vcf文件
--select-type-to-include 選擇提取的變異類型{NO_VARIATION, SNP, MNP, INDEL,
SYMBOLIC, MIXED}
對vcf文件進行過濾
gatk VariantFiltration -O test.snp.fil.vcf.temp -V test.snp.vcf --filter-expression 'QUAL < 30.0 || QD < 2.0 || FS > 60.0 || SOR > 4.0' \
--filter-name lowQualFilter --cluster-window-size 10 --cluster-size 3 --missing-values-evaluate-as-failing
## 參數
-O 輸出filt.vcf文件
-V 輸入vcf文件
--filter-expression 過濾條件, VCF INFO 信息
--cluster-window-size 以10個堿基為一個窗口
--cluster-size 10個堿基為窗口,若存在3以上個則過濾
--filter-name 被過濾掉的SNP不會刪除,而是給一個標簽, 比如 Filter
--missing-values-evaluate-as-failing 當篩選標準比較多的時候,可能有一些位點沒有篩選條件當中的一條或幾條,例如下面的這個表達式;QUAL < 30.0 || QD < 2.0 || FS > 60.0 || MQ < 40.0 || HaplotypeScore > 13.0 并不一定所有位點都有這些信息,這種情況下GATK運行的時候會報很多WARNING信息,用這個參數可以把這些缺少某些FLAG的位點也給標記成沒有通過篩選的。
## QualByDepth(QD): 變異位點可信度除以未過濾的非參考read數
## FisherStrand (FS): Fisher精確檢驗評估當前變異是strand bias的可能性,這個值在0-60間
# RMSMappingQuality (MQ): 所有樣本中比對質量的平方根
# MappingQualityRankSumTest (MQRankSum): 根據REF和ALT的read的比對質量來評估可信度
# ReadPosRankSumTest (ReadPosRankSum) : 通過變異在read的位置來評估變異可信度,通常在read的兩端的錯誤率比較高
# StrandOddsRatio (SOR) : 綜合評估strand bias的可能性
篩選PASS的SNP,INDEL
## 根據FILTER那列信息進行篩選
grep PASS test.snp.fil.vcf.temp > test.snp.fil.vcf
參考
Individual identifier (optional) - The previous column told us to expect to see genotypes here. The genotype is in the form 0|1, where 0 indicates the reference allele and 1 indicates the alternative allele, i.e it is heterozygous. The vertical pipe | indicates that the genotype is phased, and is used to indicate which chromosome the alleles are on. If this is a slash / rather than a vertical pipe, it means we don’t know which chromosome they are on.