SAM(The Sequence Alignment / Map format)格式,即序列比對(duì)文件的格式,
詳細(xì)介紹文檔:http://samtools.github.io/hts-specs/SAMv1.pdf
SAM文件由兩部分組成,頭部區(qū)和主體區(qū),都以tab分列。
頭部區(qū):以’@’開(kāi)始,體現(xiàn)了比對(duì)的一些總體信息。比如比對(duì)的SAM格式版本,比對(duì)的參考序列,比對(duì)使用的軟件等。
主體區(qū):比對(duì)結(jié)果,每一個(gè)比對(duì)結(jié)果是一行,有11個(gè)主列和一個(gè)可選列。
1, SAM 文件產(chǎn)生背景
隨著Illumina/Solexa, AB/SOLiD and Roche/454測(cè)序技術(shù)不斷的進(jìn)步,各種比對(duì)工具產(chǎn)生,被用來(lái)高效的將reads比對(duì)到參考基因組。因?yàn)檫@些比對(duì)工具產(chǎn)生不同格式的文件,導(dǎo)致下游分析比較困難,因此一個(gè)通用的格式可以提供一個(gè)很好的接口用于鏈接比對(duì)與下游分析(組裝,變異等,基因分型等)。因此SAM格式應(yīng)運(yùn)而生,主要是用來(lái)存儲(chǔ)測(cè)序reads與參考序列比對(duì)結(jié)果信息的一種文件格式,以TAB為分割符,支持不同平臺(tái)的短reads及長(zhǎng)reads(最長(zhǎng)為128Mbp)。
2,頭部區(qū)簡(jiǎn)要介紹
@HD VN:1.0 SO:unsorted (排序類(lèi)型)
頭部區(qū)第一行:VN是格式版本;SO表示比對(duì)排序的類(lèi)型,有unknown(default),unsorted,queryname和coordinate幾種。samtools軟件在進(jìn)行行排序后不能自動(dòng)更新bam文件的SO值,而picard卻可以。
@SQ SN:contig1 LN:9401 (序列ID及長(zhǎng)度)
參考序列名,這些參考序列決定了比對(duì)結(jié)果sort的順序,SN是參考序列名;LN是參考序列長(zhǎng)度;每個(gè)參考序列為一行。
例如:@SQ SN:NC_000067.6 LN:195471971
@RG ID:sample01 (樣品基本信息)
Read Group。1個(gè)sample的測(cè)序結(jié)果為1個(gè)Read Group;該sample可以有多個(gè)library的測(cè)序結(jié)果,可以利用bwa mem -R 加上去這些信息。
例如:@RG ID:ZX1_ID SM:ZX1 LB:PE400 PU:Illumina PL:Miseq
ID:樣品的ID號(hào) SM:樣品名 LB:文庫(kù)名 PU:測(cè)序以 PL:測(cè)序平臺(tái)
這些信息可以在形成sam文件時(shí)加入,ID是必須要有的后面是否添加看分析要求
@PG ID:bowtie2 PN:bowtie2 VN:2.0.0-beta7 (比對(duì)所使用的軟件及版本)
例如:@PG ID:bwa PN:bwa VN:0.7.12-r1039 CL:bwa sampe -a 400 -f ZX1.sam -r @RG ID:ZX1_ID SM:ZX1 LB:PE400 PU:Illumina PL:Miseq ../0_Reference/Reference_Sequence.fa ZX_HQ_clean_R1.fq.sai ZX_HQ_clean_R2.fq.sai ../2_HQData/ZX_HQ_clean_R1.fq ../2_HQData/ZX_HQ_clean_R2.fq
這里的ID是bwa,PN是bwa,VN是0.7.12-r1039版本。CL可以認(rèn)為是運(yùn)行程序@RG是上面RG表示的內(nèi)容,后面是程序內(nèi)容,這里的@GR內(nèi)容是可以自己在運(yùn)行程序是加入的
3,主體部分介紹
主體部分有11個(gè)主列和1個(gè)可選列
QNAME 比對(duì)的序列名稱(chēng) 例如:M04650:84:000000000-B837R:1:1101:22699:1759(一條測(cè)序reads的名稱(chēng))
FLAG Bwise FLAG(表明比對(duì)類(lèi)型:paring,strand,mate strand等) 例如:99
RENAME 比對(duì)上的參考序列名 例如:NC_000075.6
POS 1-Based的比對(duì)上的最左邊的定位 例如:124057649
MAPQ 比對(duì)質(zhì)量 例如:60
CIGAR Extended CIGAR string(操作符:MIDNSHP)比對(duì)結(jié)果信息;匹配堿基數(shù),可變剪接等 例如:87M
MRNM 相匹配的另外一條序列,比對(duì)上的參考序列名 例如:=
MPOS 1-Based leftmost Mate Position (相比于MRNM列來(lái)講意思和POS差不多) 例如:124057667
ISIZE 插入片段長(zhǎng)度 例如:200
SEQ 和參考序列在同一個(gè)鏈上比對(duì)的序列(若比對(duì)結(jié)果在負(fù)義鏈上,則序列是其反向重復(fù)序列,反向互補(bǔ)序列) 例如:ATTACTTGGCTGCT
QUAL 比對(duì)序列的質(zhì)量(ASCII-33=Phred base quality)reads堿基質(zhì)量值 例如:-8CCCGFCCCF7@E-
可選的列 以TAG:TYPE:VALUE的形式提供額外的信息
4,對(duì)于每一列內(nèi)容的詳細(xì)注解
(如果某一列為“0”或“*”表示這一列沒(méi)有信息)
第一列:QNAME
進(jìn)行reads比對(duì)時(shí)通常表示reads的名字,如果這條reads比對(duì)到多條序列或比對(duì)到這條序列的多個(gè)位置,相同名字會(huì)出現(xiàn)多次。如果是pair-end reads,相同名字會(huì)出現(xiàn)2次,分別表示來(lái)自于R1文件的reads和R2文件的reads,如果其matepair reads也比對(duì)2個(gè)位置,也會(huì)出現(xiàn)2次,則相同名字共出現(xiàn)4次,如果一條reads也比對(duì)2個(gè)位置,則其matepair比對(duì)1個(gè)位置,則共出現(xiàn)3次,如果其matepair reads沒(méi)有比對(duì)上序列也會(huì)出現(xiàn)1次(第三列顯示“*”),所以pair-end測(cè)序,R1文件和R2文件同時(shí)mapping,相同reads的id最少出現(xiàn)2次。
第二列:FLAG
數(shù)值結(jié)果如下:
1(1)該read是成對(duì)的paired reads中的一個(gè)
2(10)paired reads中每個(gè)都正確比對(duì)到參考序列上
4(100)該read沒(méi)比對(duì)到參考序列上
8(1000)與該read成對(duì)的matepair read沒(méi)有比對(duì)到參考序列上
16(10000)該read其反向互補(bǔ)序列能夠比對(duì)到參考序列
32(100000)與該read成對(duì)的matepair read其反向互補(bǔ)序列能夠比對(duì)到參考序列
64(1000000)在paired reads中,該read是與參考序列比對(duì)的第一條
128(10000000)在paired reads中,該read是與參考序列比對(duì)的第二條
256(100000000)該read是次優(yōu)的比對(duì)結(jié)果
512(1000000000)該read沒(méi)有通過(guò)質(zhì)量控制
1024(10000000000)由于PCR或測(cè)序錯(cuò)誤產(chǎn)生的重復(fù)reads
2048(100000000000)補(bǔ)充匹配的read
具體的flag值的解釋?zhuān)梢詤⒖約amtools軟件提供的結(jié)果
samtools(Version: 1.3.1)
其中的samtools flags用法可提供flag值的查找結(jié)果
About: Convert between textual and numeric flag representation
Usage: samtools flags INT|STR[,...]
例如:
samtools flags 10
0xa 10 PROPER_PAIR,MUNMAP
(10=2+8)
samtools flags 12
0xc 12 UNMAP,MUNMAP
(12=4+8)
具體的flag值的解釋?zhuān)部蓞⒖既缦戮W(wǎng)站:https://broadinstitute.github.io/picard/explain-flags.html
或者在必應(yīng)當(dāng)中搜索flag sam點(diǎn)擊Explain SAM Flags-GitHub Pages進(jìn)入該網(wǎng)頁(yè),也可以輸入組合flag數(shù)值會(huì)出現(xiàn)所存在的意思
第三列:RNAME
表示read比對(duì)的那條序列的序列名稱(chēng)(名稱(chēng)與頭部的@SQ相對(duì)應(yīng)),如果這列是“*”,可以認(rèn)為這條read沒(méi)有比對(duì)上的序列,則這一行的第四,五,八,九 列是“0”,第六,七列與該列是相同的表示方法
第四列:POS
表示read比對(duì)到RNAME這條序列的最左邊的位置,如果該read能夠完全比對(duì)到這條序列(CIGAR string為M)則這個(gè)位置是read的第一個(gè)堿基比對(duì)的位置,如果該read的反向互補(bǔ)序列比對(duì)到這條序列,則這個(gè)位置是read的反向互補(bǔ)序列的第一個(gè)堿基比對(duì)的位置,所以無(wú)論該read是正向比對(duì)到該序列,或是其反向互補(bǔ)序列比對(duì)到該序列,比對(duì)結(jié)果均是最左端的比對(duì)位置
第五列:MAPQ
表示為mapping的質(zhì)量值,mapping Quality, It equals -10log10Pr{mapping position is wrong}, rounded to the nearest integer, A value 255 indicates that the mapping quality is not available. 該值的計(jì)算方法是mapping的錯(cuò)誤率的-10log10值,之后四舍五入得到的整數(shù),如果值為255表示mapping值是不可用的,如果是unmapped read則MAPQ為0,一般在使用bwa mem或bwa aln(bwa 0.7.12-r1039版本)生成的sam文件,第五列為60表示mapping率最高,一般結(jié)果是這一列的數(shù)值是從0到60,且0和60這兩個(gè)數(shù)字出現(xiàn)次數(shù)最多
第六列:CIGAR
CIGAR string,可以理解為reads mapping到第三列序列的mapping狀態(tài),
對(duì)于mapping狀態(tài)可分為以下幾類(lèi):
M:alignment match (can be a sequence match or mismatch)
表示read可mapping到第三列的序列上,則read的堿基序列與第三列的序列堿基相同,表示正常的mapping結(jié)果,M表示完全匹配,但是無(wú)論reads與序列的正確匹配或是錯(cuò)誤匹配該位置都顯示為M
I:insertion to the reference
表示read的堿基序列相對(duì)于第三列的RNAME序列,有堿基的插入
D:deletion from the reference
表示read的堿基序列相對(duì)于第三列的RNAME序列,有堿基的刪除
N:skipped region from the reference
表示可變剪接位置
P:padding (silent deletion from padded reference)
S:soft clipping (clipped sequences present in SEQ)
H:hard clipping (clipped sequences NOT present in SEQ)
clipped均表示一條read的序列被分開(kāi),之所以被分開(kāi),是因?yàn)閞ead的一部分序列能匹配到第三列的RNAME序列上,而被分開(kāi)的那部分不能匹配到RNAME序列上。
“=”表示正確匹配到序列上
“X”表示錯(cuò)誤匹配到序列上
而H只出現(xiàn)在一條read的前端或末端,但不會(huì)出現(xiàn)在中間,S一般會(huì)和H成對(duì)出現(xiàn),當(dāng)有H出現(xiàn)時(shí),一定會(huì)有一個(gè)與之對(duì)應(yīng)的S出現(xiàn)
例如:
162M89S
162H89M
149M102S
149H102M
40S211M
20M1D20M211H
S可以單獨(dú)出現(xiàn),而H必須有與之對(duì)應(yīng)的S出現(xiàn)時(shí)才可能出現(xiàn),不可在相同第一列的情況下單獨(dú)出現(xiàn)
N:如果是mRNA-to-genome,N出現(xiàn)的位置代表內(nèi)含子,其它比對(duì)形式出現(xiàn)N時(shí)則沒(méi)有具體解釋
M/I/S/=/X:這些數(shù)值的加和等于第10列SEQ的長(zhǎng)度
第七列:MRNM
這條reads第二次比對(duì)的位置,在利用bwa mem產(chǎn)生sam文件時(shí),如果該列是“”而
第3列RNAME不是“”則表示該reads比對(duì)到第3列顯示序列名的序列上,而沒(méi)有比對(duì)到其他位置,在利用bwa aln及bwa sampe比對(duì)生成的sam文件,如果和上述情況相同,則第7列為“=”,上述情況均表示該reads只比對(duì)到這一個(gè)位置
如果第3列RNAME和第7列MRNM都為“*”,則說(shuō)明這條reads沒(méi)有匹配上的序列,如果這條reads匹配兩個(gè)序列,則第一個(gè)序列的名稱(chēng)出現(xiàn)在第3列,而第二個(gè)序列的名稱(chēng)出現(xiàn)在第7列
第八列:MPOS
該列表示與該reads對(duì)應(yīng)的mate pair reads的比對(duì)位置,如果這對(duì)pair-end reads比對(duì)到同一條reference序列上,在sam文件中reads的id出現(xiàn)2次,Read1比對(duì)的第4列等于Read2比對(duì)的第8列。同樣Read1比對(duì)的第8列等于Read2比對(duì)的第4列。例如:
第1列(Read id)····第4列(Read1比對(duì)位置)····第8列(mate-pair reads比對(duì)位置)
22699:1759····124057649····124057667
22699:1759····124057667····124057649
相同的reads id一個(gè)來(lái)自Read1文件,一個(gè)來(lái)自Read2文件,第4列和第8列是對(duì)應(yīng)的
第九列:ISIZE
TLEN:signed observed Template LENgth (可以理解為文庫(kù)插入片段長(zhǎng)度)
如果R1端的read和R2端的read能夠mapping到同一條Reference序列上(即第三列RNAME相同),則該列的值表示第8列減去第4列加上第6列的值,R1端和R2端相同id的reads其第九列值相同,但該值為一正一負(fù),R1文件的reads和R2文件的reads,相同id的reads要相對(duì)來(lái)看。在進(jìn)行該第列值的計(jì)算時(shí),如果取第6列的數(shù)值,一定要取出現(xiàn)M的值,S或H的值不能取。
the unisgned observed template length equals the number of base from the leftmost mapped base to the rightmost mappedbase. Theleftmost segment has a plus sign and the rightmost has a minus sign
https://blog.csdn.net/genome_denovo/article/details/78712972
http://www.biotrainee.com/thread-2704-1-1.html
http://samtools.github.io/hts-specs/SAMv1.pdf
http://boyun.sh.cn/bio/?p=1890