GATK4.0 和之前的版本相比還是有較大的不同，更加趨于流程化。

軟件安裝

點擊此處查看最新版本

wget https://github.com/broadinstitute/gatk/releases/download/4.1.5.0/gatk-4.1.5.0.zip
unzip gatk-4.1.5.0.zip

GATK 簡單說明

## 幫助信息
gat --help

## 列出所有的工具
gatk --list

## 工具的說明，比如以VariantAnnotator 為例
gatk VariantAnnotator --help

GATK分析簡要流程

所需數據

ref.fa
reads1.fq
reads2.fq

建立索引

bwa index ref.fa
samtools  faidx ref.fa
gatk CreateSequenceDictionary -R ref.fa -O ref.dict

##
-R Input reference fasta or fasta.gz  Required
-O  輸出文件

比對

## bwa 比對
bwa mem -t 4 -R '@RG\tID:id1\tPL:illumina\tSM:test' ref.fa test_1.fq test_2.fq | samtools view -bS - >test.bam

##參數
-R 設置reads group，gatk必須要的信息，其中ID，PL和SM信息是必須要的

## 排序
samtools sort -@ 3 -o test.sorted.bam test.bam
rm test.bam


## 也可以用GATK的SortSam進行排序，可以對SAM，或者BAM直接排序
gatk SortSam -I test.bam -O test.sorted.bam -SO coordinate --CREATE_INDEX true
## c參數
-I： 輸入bam或者sam
-O： 輸出文件
-SO：排序方式：queryname 或者coordinate
--CREATE_INDEX： 是否建立索引

GATK 要求read group的格式

ID = Read group identifier
　每一個read group 獨有的ID，每一對reads 均有一個獨特的ID，可以自定義命名；
PL = Platform
　　測序平臺；ILLUMINA, SOLID, LS454, HELICOS and PACBIO，不區分大小寫；
SM = sample
　　reads屬于的樣品名；SM要設定正確，因為GATK產生的VCF文件也使用這個名字;
LB = DNA preparation library identifier
　　對一個read group的reads進行重復序列標記時，需要使用LB來區分reads來自那條lane;有時候，同一個庫可能在不同的lane上完成測序;為了加以區分，
　　同一個或不同庫只要是在不同的lane產生的reads都要單獨給一個ID. 一般無特殊說明，成對兒read屬于同一庫，可自定義，比如：library1

若是忘記添加read group信息還以通過 AddOrReplaceReadGroups 添加

gatk AddOrReplaceReadGroups -I .bam -O .add.bam -LB library1 -PL illumina -PU pl1 -SM name

##參數
-I Input file (BAM or SAM or a GA4GH url)；
-O  Output file (BAM or SAM)；
-LB Read-Group library；
-PL  Read-Group platform (e.g. ILLUMINA, SOLID)；
-PU Read-Group platform unit (eg. run barcode)；
-SM Read-Group sample name

標記重復序列

gatk  MarkDuplicates -I test.sorted.bam -O test.sorted.markdup.bam -M test.sorted.markdup_metrics.txt
##參數
-I 排序后的bam或者sam文件
-M 輸出重復矩陣
-O 輸出文件

## 建立索引
samtools index test.sorted.markup.bam

檢測變異

##兩種方法

##（1）多樣本一起call，此次只有一個樣本，若有多個樣本，則繼續用 -I 參數添加即可
gatk --java-options -Xmx4G HaplotypeCaller -I test.sorted.markup.bam -O test.vcf -R ref.fa

##（2）單個樣本call，然后在合并
## 生成中間文件gvcf
gatk --java-options -Xmx4G HaplotypeCaller -I test.sorted.markup.bam -O test.g.vcf -R ref.fa --emit-ref-confidence GVCF

##通過gvcf檢測變異, -V 添加上步得到的gvcf
gatk GenotypeGVCFs -R ref.fa -V test.g.vcf -O test.vcf

##參數
-I BAM/SAM/CRAM file
-O  輸出文件
-R 參考基因組
--java-options: 若設置java則需要添加
-Xmx4G：內存為4G，防止內存太大
-V  A VCF file containing variants
-L 第一種方法可單獨對染色體分開進行call，而后用GatherVcfs可以合并，可加快速度

$\color{red}{==補充==}$
4.0以后GenotypeGVCFs只能接受single-sample GVCF from HaplotypeCaller or a multi-sample GVCF from CombineGVCFs orGenomicsDBImport，若有多個g.vcf 可以使用上述兩種工具進行合并成一個單獨的文件即可.

提取SNP，INDEL

## 提取SNP
gatk SelectVariants -V test.vcf -O test.snp.vcf --select-type-to-include SNP

## 提取INDEL
gatk SelectVariants -V test.vcf -O test.indel.vcf --select-type-to-include INDEL

##參數
-O 輸出vcf文件
-V 輸入vcf文件
--select-type-to-include 選擇提取的變異類型{NO_VARIATION, SNP, MNP, INDEL,
                              SYMBOLIC, MIXED}

對vcf文件進行過濾

gatk VariantFiltration -O test.snp.fil.vcf.temp -V test.snp.vcf --filter-expression 'QUAL < 30.0 || QD < 2.0 || FS > 60.0 ||  SOR > 4.0' \
　　　　--filter-name lowQualFilter --cluster-window-size 10  --cluster-size 3 --missing-values-evaluate-as-failing

## 參數
-O 輸出filt.vcf文件
-V 輸入vcf文件
--filter-expression 過濾條件, VCF INFO 信息
--cluster-window-size 以10個堿基為一個窗口
--cluster-size 10個堿基為窗口，若存在3以上個則過濾
--filter-name 被過濾掉的SNP不會刪除，而是給一個標簽， 比如 Filter
--missing-values-evaluate-as-failing 當篩選標準比較多的時候，可能有一些位點沒有篩選條件當中的一條或幾條，例如下面的這個表達式；QUAL < 30.0 || QD < 2.0 || FS > 60.0 || MQ < 40.0 || HaplotypeScore > 13.0 并不一定所有位點都有這些信息，這種情況下GATK運行的時候會報很多WARNING信息，用這個參數可以把這些缺少某些FLAG的位點也給標記成沒有通過篩選的。
## QualByDepth(QD): 變異位點可信度除以未過濾的非參考read數
## FisherStrand (FS): Fisher精確檢驗評估當前變異是strand bias的可能性，這個值在0-60間
# RMSMappingQuality (MQ): 所有樣本中比對質量的平方根
# MappingQualityRankSumTest (MQRankSum): 根據REF和ALT的read的比對質量來評估可信度
# ReadPosRankSumTest (ReadPosRankSum) : 通過變異在read的位置來評估變異可信度，通常在read的兩端的錯誤率比較高
# StrandOddsRatio (SOR) : 綜合評估strand bias的可能性

篩選PASS的SNP，INDEL

## 根據FILTER那列信息進行篩選
grep PASS test.snp.fil.vcf.temp >  test.snp.fil.vcf

參考

Individual identifier (optional) - The previous column told us to expect to see genotypes here. The genotype is in the form 0|1, where 0 indicates the reference allele and 1 indicates the alternative allele, i.e it is heterozygous. The vertical pipe | indicates that the genotype is phased, and is used to indicate which chromosome the alleles are on. If this is a slash / rather than a vertical pipe, it means we don’t know which chromosome they are on.

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

GATK4.1 call SNP

GATK4.1 call SNP

軟件安裝

GATK 簡單說明

GATK分析簡要流程

所需數據

建立索引

比對

標記重復序列

檢測變異

提取SNP，INDEL

對vcf文件進行過濾

篩選PASS的SNP，INDEL

參考

GATK4.0全基因組數據分析實戰

GATK - Read groups

歡迎交流

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

GATK4.1 call SNP

軟件安裝

GATK 簡單說明

GATK分析簡要流程

所需數據

建立索引

比對

標記重復序列

檢測變異

提取SNP，INDEL

對vcf文件進行過濾

篩選PASS的SNP，INDEL

參考

GATK4.0全基因組數據分析實戰

GATK - Read groups

歡迎交流

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频