ANNOVAR的使用


ANNOVAR的安裝

ANNOVAR網址

  • log in之后才能download,使用教育機構后綴的郵箱即可注冊。

該測序是用perl語言寫的,所以可以作為獨立程序運行于各個已經安裝Perl的系統。解壓直接用即可。
以下示例皆在linux系統中完成

  • ANNOVAR的安裝包里自帶了一些常用的數據庫,在humandb/目錄下


    安裝包內容
  • 如果要進行其他注釋,需要使用 -downdb 命令下載數據庫到 ‘humandb/’ 目錄里:

#下載1000g2015Aug數據庫
$perl annotate_variation.pl -buildver hg19 -downdb -webfrom annovar 1000g2015aug humandb/    
  • 在ANNOVAR的主頁面有用于注釋的各種數據庫的描述,使用者可以根據自行去下載:
annotation database

ANNOVAR的程序模塊

  • ANNOVAR程序有以下幾個模塊:

(ANNOVAR程序結構
│ annotate_variation.pl #主程序,功能包括下載數據庫,三種不同的注釋
│ coding_change.pl #可用來推斷蛋白質序列
│ convert2annovar.pl #將多種格式轉為.avinput的程序
│ retrieve_seq_from_fasta.pl #用于自行建立其他物種的轉錄本
│ table_annovar.pl #注釋程序,可一次性完成三種類型的注釋
│ variants_reduction.pl #可用來更靈活地定制過濾注釋流程

├─example #存放示例文件

└─humandb #人類注釋數據庫)


ANNOVAR的輸入文件

  • ANNOVAR使用.avinput格式,如以上代碼所示,該格式每列以tab分割,需要有以下幾個信息:
  1. 染色體位置
  1. 起始位點
  2. 終止位點
  3. 參考基因組堿基
  4. 突變堿基
  5. ......
  • 文件示例:
chrM    302     302     -       C       chrM    302     .       A       AC      93.73   PASS    AC=4;AF=0.500;AN=8;ClippingRankSum=0.000;DP=121;ExcessHet=3.0103;MLEAC=1;MLEAF=0.500;set=Intersection   GT:AD:DP:GQ:PL  0/1:16,9:25:99:183,0,384
chrM    963     963     T       -       chrM    962     .       CT      C       258.73  PASS    AC=3;AF=0.500;AN=6;ClippingRankSum=0.000;DP=75;ExcessHet=3.0103;MLEAC=1;MLEAF=0.500;set=variant2-variant3-variant4      GT:AD:DP:GQ:PL  0/1:11,11:22:99:296,0,247
chr1    2178293 2178294 GG      -       chr1    2178292 .       TGG     T       128     PASS    AC=6;AF=1.00;AN=6;DP=31;ExcessHet=3.0103;FS=0.000;MLEAC=2;MLEAF=1.00;set=variant-variant2-variant3      GT:AD:DP:GQ:PL  1/1:0,4:4:12:165,12,0
chr1    2248382 2248382 -       C       chr1    2248382 .       G       GC      98.25   PASS    AC=4;AF=1.00;AN=4;DP=5;ExcessHet=3.0103;FS=0.000;MLEAC=2;MLEAF=1.00;set=variant2-variant3       GT:AD:DP:GQ:PL  1/1:0,3:3:9:135,9,0
chr1    3278899 3278899 -       C       chr1    3278899 .       A       AC      30.71   PASS    AC=2;AF=1.00;AN=2;DP=2;ExcessHet=3.0103;FS=0.000;MLEAC=2;MLEAF=1.00;MQ=37.00;QD=15.35;SOR=0.693;set=variant2    GT:AD:DP:GQ:PL  1/1:0,2:2:6:67,6,0
chr1    3817092 3817092 -       T       chr1    3817092 .       C       CT      22.73   PASS    AC=2;AF=1.00;AN=2;DP=2;ExcessHet=3.0103;FS=0.000;MLEAC=2;MLEAF=1.00;MQ=37.00;QD=11.36;SOR=0.693;set=variant2    GT:AD:DP:GQ:PL  1/1:0,2:2:6:59,6,0
chr1    6067261 6067261 -       G       chr1    6067261 .       T       TG      21.73   PASS    AC=2;AF=1.00;AN=2;DP=2;ExcessHet=3.0103;FS=0.000;MLEAC=2;MLEAF=1.00;MQ=37.00;QD=10.87;SOR=0.693;set=variant2    GT:AD:DP:GQ:PL  1/1:0,2:2:6:58,6,0
chr1    6211850 6211850 -       C       chr1    6211850 .       A       AC      30.71   PASS    AC=2;AF=1.00;AN=2;DP=2;ExcessHet=3.0103;FS=0.000;MLEAC=2;MLEAF=1.00;MQ=37.00;QD=15.35;SOR=0.693;set=variant2    GT:AD:DP:GQ:PL  1/1:0,2:2:6:67,6,0
chr1    7538772 7538772 -       TTTA    chr1    7538772 .       C       CTTTA   53.70   PASS    AC=2;AF=1.00;AN=2;DP=2;ExcessHet=3.0103;FS=0.000;MLEAC=2;MLEAF=1.00;MQ=37.00;QD=26.85;SOR=2.303;set=variant2    GT:AD:DP:GQ:PL  1/1:0,2:2:6:90,6,0
chr1    7709649 7709649 -       T       chr1    7709649 .       C       CT      62.74   PASS    AC=2;AF=0.500;AN=4;ClippingRankSum=0.000;DP=15;ExcessHet=3.0103;MLEAC=1;MLEAF=0.500;MQ=37.00;MQRankSum=0.000;set=variant2-variant3      GT:AD:DP:GQ:PL       0/1:1,3:4:25:100,0,25

ANNOVAR輸入文件的格式轉換

  • ANNOVAR主要使用convert2annovar.pl程序進行轉換,轉換后文件是精簡過的,主要包含前面提到的5列內容,如果要將原格式的文件的所有內容都包含在轉換后的.avinput文件中,可以使用-includeinfo參數;如果需要分開每個sample輸出單一的.avinput文件,可以使用-allsample參數,等等。
    代碼示例:
$ convert2annovar.pl -format vcf4 example/ex2.vcf > ex2.avinput
# -format vcf4 指定格式為vcf
  • ANNOVAR還主要支持以下格式轉換:
  • SAMtools pileup format
  • Complete Genomics format
  • GFF3-SOLiD calling format
  • SOAPsnp calling format
  • MAQ calling format
  • CASAVA calling format

ANNOVAR注釋功能

  • Table_annovar.pl(可一次完成三種類型的注釋)

使用ANNOVAR最簡單的方法就是使用table_annovar.pl進行注釋,它的輸入文件可以是多種格式包括VCF,輸出文件已Tab分隔,每一列代表著一種注釋。
注釋命令示例:

$~/biosoft/ANNOVAR/annovar/table_annovar.pl 15_indel_pre.avinput.hg19.variant2.avinput ~/biosoft/ANNOVAR/annovar/humandb/ -buildver hg19 -out myanno -remove -protocol refGene,cytoBand,genomicSuperDups,esp6500siv2_all,1000g2015aug_all,1000g2015aug_eur,exac03,avsnp147,dbnsfp30a -operation g,r,r,f,f,f,f,f,f -nastring . -csvout
# -buildver hg19 表示使用hg19版本
# -out myanno 表示輸出文件的前綴為myanno
# -remove 表示刪除注釋過程中的臨時文件
# -protocol 表示注釋使用的數據庫,用逗號隔開,且要注意順序
# -operation 表示對應順序的數據庫的類型(g代表gene-based、r代表region-based、f代表filter-based),用逗號隔開,注意順序
# -nastring . 表示用點號替代缺省的值
# -csvout 表示最后輸出.csv文件

輸出的csv文件將包含輸入的5列主要信息以及各個數據庫里的注釋,此外,table_annoval.pl可以直接對vcf文件進行注釋(不需要轉換格式),注釋的內容將會放在vcf文件的“INFO”那一欄。
注釋結果示例:

注釋結果
  • Annotate_variation.pl

Annotate_variation.pl的注釋方式分為三種:

  1. Gene-based annotation
  2. Region-based annotation
  3. Filter-based annotation
annotate_variation.pl -geneanno -buildver hg19 example/ex1.avinput humandb/
annotate_variation.pl -regionanno -dbtype cytoBand -buildver hg19 example/ex1.avinput humandb/
annotate_variation.pl -filter -dbtype 1000g2014oct_all -buildver hg19 example/ex1.avinput humandb/
#三種命令示例,使用package自帶數據進行注釋,分別對應三種注釋方式

Annotate_variation.pl 實例

  • Gene-based annotation

顧名思義,Gene-based annotation是根據SNPs以及CNVs的位置信息來確定是否會造成編碼序列以及開放閱讀框的改變從而影響氨基酸的改變,使用者可以自主選擇RefSeq genes, 包括UCSC genes, ENSEMBL genes, GENCODE genes, AceView genes等來進行注釋。
命令示例:

$ annotate_variation.pl -geneanno -dbtype refGene -out ex1 -build hg19 example/ex1.avinput humandb/
# -geneanno 表示使用基于基因的注釋
# -dbtype refGene 表示使用"refGene"數據庫
# -out ex1 表示輸出文件以ex1為前綴

因為annotate_variation.pl默認使用gene-based注釋類型以及refGene數據庫,所以上面的命令可以缺省-geneanno -dbtype refGene
運行結果會產生兩個文件:

#ex1.variant_function
[kaiwang@biocluster ~/]$ cat ex1.variant_function
UTR5 ISG15(NM_005101:c.-33T>C) 1 948921 948921 T C comments: rs15842, a SNP in 5' UTR of ISG15
UTR3 ATAD3C(NM_001039211:c.*91G>T) 1 1404001 1404001 G T comments: rs149123833, a SNP in 3' UTR of ATAD3C
splicing NPHP4(NM_001291593:exon19:c.1279-2T>A,NM_001291594:exon18:c.1282-2T>A,NM_015102:exon22:c.2818-2T>A) 1 5935162 5935162 A T comments: rs1287637, a splice site variant in NPHP4
intronic DDR2 1 162736463 162736463 C T comments: rs1000050, a SNP in Illumina SNP arrays
intronic DNASE2B 1 84875173 84875173 C T comments: rs6576700 or SNP_A-1780419, a SNP in Affymetrix SNP arrays
intergenic LOC645354(dist=11566),LOC391003(dist=116902) 1 13211293 13211294 TC - comments: rs59770105, a 2-bp deletion
intergenic UBIAD1(dist=55105),PTCHD2(dist=135699) 1 11403596 11403596 - AT comments: rs35561142, a 2-bp insertion
intergenic LOC100129138(dist=872538),NONE(dist=NONE) 1 105492231 105492231 A ATAAA comments: rs10552169, a block substitution
exonic IL23R 1 67705958 67705958 G A comments: rs11209026 (R381Q), a SNP in IL23R associated with Crohn's disease
exonic ATG16L1 2 234183368 234183368 A G comments: rs2241880 (T300A), a SNP in the ATG16L1 associated with Crohn's disease
exonic NOD2 16 50745926 50745926 C T comments: rs2066844 (R702W), a non-synonymous SNP in NOD2
exonic NOD2 16 50756540 50756540 G C comments: rs2066845 (G908R), a non-synonymous SNP in NOD2
exonic NOD2 16 50763778 50763778 - C comments: rs2066847 (c.3016_3017insC), a frameshift SNP in NOD2
exonic GJB2 13 20763686 20763686 G - comments: rs1801002 (del35G), a frameshift mutation in GJB2, associated with hearing loss
exonic CRYL1,GJB6 13 20797176 21105944 0 - comments: a 342kb deletion encompassing GJB6, associated with hearing loss 
第一個文件包括對于所有突變的注釋,通過在文件最前面加入兩列,以tab分割
第一列為變異所在基因位置的類型,如外顯子,內含子,UTR5,UTR3,基因間等
第二列為對第一列的描述信息,詳情見下
詳細解釋
#ex1.exonic_variant_function
[kaiwang@biocluster ~/]$ cat ex1.exonic_variant_function
line9 nonsynonymous SNV IL23R:NM_144701:exon9:c.G1142A:p.R381Q, 1 67705958 67705958 G A comments: rs11209026 (R381Q), a SNP in IL23R associated with Crohn's disease
line10 nonsynonymous SNV ATG16L1:NM_001190267:exon9:c.A550G:p.T184A,ATG16L1:NM_017974:exon8:c.A841G:p.T281A,ATG16L1:NM_001190266:exon9:c.A646G:p.T216A,ATG16L1:NM_030803:exon9:c.A898G:p.T300A,ATG16L1:NM_198890:exon5:c.A409G:p.T137A, 2 234183368 234183368 A G comments: rs2241880 (T300A), a SNP in the ATG16L1 associated with Crohn's disease
line11 nonsynonymous SNV NOD2:NM_022162:exon4:c.C2104T:p.R702W,NOD2:NM_001293557:exon3:c.C2023T:p.R675W, 16 50745926 50745926 C comments: rs2066844 (R702W), a non-synonymous SNP in NOD2
line12 nonsynonymous SNV NOD2:NM_022162:exon8:c.G2722C:p.G908R,NOD2:NM_001293557:exon7:c.G2641C:p.G881R, 16 50756540 50756540 G comments: rs2066845 (G908R), a non-synonymous SNP in NOD2
line13 frameshift insertion NOD2:NM_022162:exon11:c.3017dupC:p.A1006fs,NOD2:NM_001293557:exon10:c.2936dupC:p.A979fs, 16 50763778 5076377comments: rs2066847 (c.3016_3017insC), a frameshift SNP in NOD2
line14 frameshift deletion GJB2:NM_004004:exon2:c.35delG:p.G12fs, 13 20763686 20763686 G - comments: rs1801002 (del35G), a frameshift mutation in GJB2, associated with hearing loss line15 frameshift deletion GJB6:NM_001110221:wholegene,GJB6:NM_001110220:wholegene,GJB6:NM_001110219:wholegene,CRYL1:NM_015974:wholegene,GJB6:NM_006783:wholegene, 13 20797176 21105944 0 - comments: a 342kb deletion encompassing GJB6, associated with hearing loss
第二個輸出文件以.exonic_variant_function結尾,只列出外顯子(氨基酸會改變)的變異
第一列為第一個文件中該變異所在的行號;
第二列為該變異的功能性后果,如外現在改變導致的氨基酸變化,閱讀框移碼等,詳情見下
第三列為基因名稱,轉錄識別標志和相應的轉錄本的序列變化
第四列為原輸入文件內容
詳細解釋
  • Region-based annotation

其與Gene-based annotation作用相反,它是用來確認在特定區域的突變造成的影響。比如在44個物種的保守基因區域,預測的轉錄因子結合區域,基因重復區域,GWAS分析區域,基因突變數據庫,表觀組學位點等。此處以Conserved genomic elements annotation為例介紹region-based annotation的使用:
命令示例:

#數據庫下載
[kaiwang@biocluster ~/]$ annotate_variation.pl -build hg19 -downdb phastConsElements46way humandb/
NOTICE: Web-based checking to see whether ANNOVAR new version is available ... Done
NOTICE: Downloading annotation database http://hgdownload.cse.ucsc.edu/goldenPath/hg19/database/phastConsElements46way.txt.gz ... OK
NOTICE: Uncompressing downloaded files
NOTICE: Finished downloading annotation files for hg19 build version, with files saved at the 'humandb' directory
#使用下載數據庫進行注釋
[kaiwang@biocluster ~/]$ annotate_variation.pl -regionanno -build hg19 -out ex1 -dbtype phastConsElements46way example/ex1.avinput humandb/
NOTICE: Reading annotation database humandb/hg19_phastConsElements46way.txt ... Done with 5163775 regions
NOTICE: Finished region-based annotation on 12 genetic variants in ex1.hg19.avinput
NOTICE: Output files were written to ex1.hg19_phastConsElements46way
# -regionanno 表示使用基于區域的注釋
# -dbtype phastConsElements46way 表示使用"phastConsElements46way"數據庫,注意需要使用Region-based的數據庫
#輸出文件
[kaiwang@biocluster ~/]$ cat ex1.hg19_phastConsElements46way
phastConsElements46way Score=387;Name=lod=50 1 67705958 67705958 G A comments: rs11209026 (R381Q), a SNP in IL23R associated with Crohn's disease
phastConsElements46way Score=420;Name=lod=68 16 50756540 50756540 G C comments: rs2066845 (G908R), a non-synonymous SNP in NOD2
phastConsElements46way Score=385;Name=lod=49 16 50763778 50763778 - C comments: rs2066847 (c.3016_3017insC), a frameshift SNP in NOD2
phastConsElements46way Score=395;Name=lod=54 13 20763686 20763686 G - comments: rs1801002 (del35G), a frameshift mutation in GJB2, associated with hearing loss
phastConsElements46way Score=545;Name=lod=218 13 20797176 21105944 0 - comments: a 342kb deletion encompassing GJB6, associated with hearing loss
輸出文件:輸出的注釋文件第1列為“phastConsElements46way”,對應注釋的類型,這里的phastCons 46-way alignments屬于保守的基因組區域的注釋;
第二列包含評分和名稱,評分來自UCSC,可以使用--score_threshold和--normscore_threshold來過濾評分低的變異,“Name=lod=x”名稱表示該區域的名稱;
剩余的部分為輸入文件的內容。
  • Filter-based annotation

Filter-based annotation是用以確認已記錄在特定數據庫里的突變。例如想要知道突變是否為novel variation就需要知道該突變是否存在于dbSNP庫里,它在1000 genome project里面等位基因頻率怎樣,以及計算一系列突變項目得分并加以過濾。它區別于region-based annotation就在于它針對突變堿基進行工作,而region-based annotation 針對染色體位置。舉例來說就是region-based比對chr1:1000-1000而filter-based比對chr1:1000-1000上的A->G。
它擁有多種數據庫,包括針對全基因組測序的突變頻率,針對全外顯子數據測序的突變頻率,在孤立或者小類群人群中的突變頻率,全基因組數據突變的功能預測,全外顯子組突變的功能預測,剪切變異體的功能預測,疾病相關突變,突變確認等,如下:

注釋數據庫

下面給大家介紹常用的兩種過濾注釋

  • 1000 Genomes Project annotations

命令示例:

[kaiwang@biocluster ~/]$ annotate_variation.pl -filter -dbtype 1000g2012apr_eur -buildver hg19 -out ex1 example/ex1.avinput humandb/
NOTICE: Variants matching filtering criteria are written to ex1.hg19_EUR.sites.2012_04_dropped, other variants are written to ex1.hg19_EUR.sites.2012_04_filtered
NOTICE: Processing next batch with 15 unique variants in 15 input lines
NOTICE: Database index loaded. Total number of bins is 2766067 and the number of bins to be scanned is 12
NOTICE: Scanning filter database humandb/hg19_EUR.sites.2012_04.txt...Done
#查看數據格式
[kaiwang@biocluster ~/]$ cat ex1.hg19_EUR.sites.2012_04_dropped
1000g2012apr_eur 0.04 1 1404001 1404001 G T comments: rs149123833, a SNP in 3' UTR of ATAD3C
1000g2012apr_eur 0.87 1 162736463 162736463 C T comments: rs1000050, a SNP in Illumina SNP arrays
1000g2012apr_eur 0.81 1 5935162 5935162 A T comments: rs1287637, a splice site variant in NPHP4
1000g2012apr_eur 0.06 1 67705958 67705958 G A comments: rs11209026 (R381Q), a SNP in IL23R associated with Crohn's disease
1000g2012apr_eur 0.54 1 84875173 84875173 C T comments: rs6576700 or SNP_A-1780419, a SNP in Affymetrix SNP arrays
1000g2012apr_eur 0.96 1 948921 948921 T C comments: rs15842, a SNP in 5' UTR of ISG15
1000g2012apr_eur 0.05 16 50745926 50745926 C T comments: rs2066844 (R702W), a non-synonymous SNP in NOD2
1000g2012apr_eur 0.01 16 50756540 50756540 G C comments: rs2066845 (G908R), a non-synonymous SNP in NOD2
1000g2012apr_eur 0.01 16 50763778 50763778 - C comments: rs2066847 (c.3016_3017insC), a frameshift SNP in NOD2
1000g2012apr_eur 0.53 2 234183368 234183368 A G comments: rs2241880 (T300A), a SNP in the ATG16L1 associated with Crohn's disease
# -filter 使用基于過濾的注釋
# -dbtype 1000g2012apr_eur 使用"1000g2012apr_eur"數據庫

該注釋使用2012年4月歐洲發布1000基因組計劃數據庫,輸出文件會有兩個,output_dropped file 和 output_filtered file

#dropped file
[kaiwang@biocluster ~/]$ cat ex1.hg19_EUR.sites.2012_04_dropped
1000g2012apr_eur 0.04 1 1404001 1404001 G T comments: rs149123833, a SNP in 3' UTR of ATAD3C
1000g2012apr_eur 0.87 1 162736463 162736463 C T comments: rs1000050, a SNP in Illumina SNP arrays
1000g2012apr_eur 0.81 1 5935162 5935162 A T comments: rs1287637, a splice site variant in NPHP4
1000g2012apr_eur 0.06 1 67705958 67705958 G A comments: rs11209026 (R381Q), a SNP in IL23R associated with Crohn's disease
1000g2012apr_eur 0.54 1 84875173 84875173 C T comments: rs6576700 or SNP_A-1780419, a SNP in Affymetrix SNP arrays
1000g2012apr_eur 0.96 1 948921 948921 T C comments: rs15842, a SNP in 5' UTR of ISG15
1000g2012apr_eur 0.05 16 50745926 50745926 C T comments: rs2066844 (R702W), a non-synonymous SNP in NOD2
1000g2012apr_eur 0.01 16 50756540 50756540 G C comments: rs2066845 (G908R), a non-synonymous SNP in NOD2
1000g2012apr_eur 0.01 16 50763778 50763778 - C comments: rs2066847 (c.3016_3017insC), a frameshift SNP in NOD2
1000g2012apr_eur 0.53 2 234183368 234183368 A G comments: rs2241880 (T300A), a SNP in the ATG16L1 associated with Crohn's disease
#*dropped文件
第一列如region-based注釋的結果一樣以數據庫命名;
第二列為等位基因頻率,我們可以用-maf 0.05參數來過濾掉低于0.05的變異;
第三列開始同樣是輸入文件的內容。
#需要注意的是,我們也可以使用-maf 0.05 -reverse過濾掉高于0.05的變異;但是過濾ALT等位基因的頻率,我們更提倡使用-score_threshold參數。
  • dbSNP annotations

通過dbsnp annotation, annovar可以確認已經出現在dbSNP數據庫里面的突變并且注釋SNP identifiers
命令如下:

#下載dbsnpp138數據庫
[kaiwang@biocluster ~/]$ annotate_variation.pl -downdb -buildver hg19 -webfrom annovar snp138 humandb
NOTICE: Web-based checking to see whether ANNOVAR new version is available ... Done
NOTICE: Downloading annotation database http://www.openbioinformatics.org/annovar/download/hg19_snp138.txt.gz ... OK
NOTICE: Downloading annotation database http://www.openbioinformatics.org/annovar/download/hg19_snp138.txt.idx.gz ... OK
NOTICE: Uncompressing downloaded files NOTICE: Finished downloading annotation files for hg18 build version, with files saved at the 'humandb' directory
#使用dbsnp138注釋
[kaiwang@biocluster ~/]$ annotate_variation.pl -filter -out ex1 -build hg19 -dbtype snp138 example/ex1.avinput humandb/
NOTICE: Variants matching filtering criteria are written to ex1.hg19_snp138_dropped, other variants are written to ex1.hg19_snp138_filtered
NOTICE: Processing next batch with 15 unique variants in 15 input lines
NOTICE: Database index loaded. Total number of bins is 2858459 and the number of bins to be scanned is 12
NOTICE: Scanning filter database humandb/hg19_snp138.txt...Done
#輸入dropped file
[kaiwang@biocluster ~/]$ cat ex1.hg19_snp138_dropped
snp138 rs35561142 1 11403596 11403596 - AT comments: rs35561142, a 2-bp insertion
snp138 rs149123833 1 1404001 1404001 G T comments: rs149123833, a SNP in 3' UTR of ATAD3C
snp138 rs1000050 1 162736463 162736463 C T comments: rs1000050, a SNP in Illumina SNP arrays
snp138 rs1287637 1 5935162 5935162 A T comments: rs1287637, a splice site variant in NPHP4
snp138 rs11209026 1 67705958 67705958 G A comments: rs11209026 (R381Q), a SNP in IL23R associated with Crohn's disease
snp138 rs6576700 1 84875173 84875173 C T comments: rs6576700 or SNP_A-1780419, a SNP in Affymetrix SNP arrays
snp138 rs15842 1 948921 948921 T C comments: rs15842, a SNP in 5' UTR of ISG15
snp138 rs80338939 13 20763686 20763686 G - comments: rs1801002 (del35G), a frameshift mutation in GJB2, associated with hearing loss
snp138 rs2066844 16 50745926 50745926 C T comments: rs2066844 (R702W), a non-synonymous SNP in NOD2
snp138 rs2066845 16 50756540 50756540 G C comments: rs2066845 (G908R), a non-synonymous SNP in NOD2
snp138 rs2066847 16 50763778 50763778 - C comments: rs2066847 (c.3016_3017insC), a frameshift SNP in NOD2
snp138 rs2241880 2 234183368 234183368 A G comments: rs2241880 (T300A), a SNP in the ATG16L1 associated with Crohn's disease
#*dropped文件
第一列如region-based注釋的結果一樣以數據庫命名;
第二列為已經在數據庫的突變的indentifier號;
第三列開始同樣是輸入文件的內容。

該注釋使用2012年4月歐洲發布1000基因組計劃數據庫,輸出文件會有兩個,*dropped file 和 *filtered file
filtered file里面包含不在過濾數據庫內的突變。


**
當然ANNOVAR還有很多功能,我在這里只贅述我自己用到的一些方面,有興趣的也可以自己去探究
**


參考文獻:
ANNOVAR 注釋軟件
ANNOVAR 官網


Call Me Chevy
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,837評論 6 531
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,196評論 3 414
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 175,688評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,654評論 1 309
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,456評論 6 406
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 54,955評論 1 321
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,044評論 3 440
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,195評論 0 287
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,725評論 1 333
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,608評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,802評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,318評論 5 358
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,048評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,422評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,673評論 1 281
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,424評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,762評論 2 372

推薦閱讀更多精彩內容