常見(jiàn)格式——sam

SAM(The Sequence Alignment / Map format)格式,即序列比對(duì)文件的格式,
詳細(xì)介紹文檔:http://samtools.github.io/hts-specs/SAMv1.pdf

SAM文件由兩部分組成,頭部區(qū)和主體區(qū),都以tab分列。
頭部區(qū):以’@’開(kāi)始,體現(xiàn)了比對(duì)的一些總體信息。比如比對(duì)的SAM格式版本,比對(duì)的參考序列,比對(duì)使用的軟件等。
主體區(qū):比對(duì)結(jié)果,每一個(gè)比對(duì)結(jié)果是一行,有11個(gè)主列和一個(gè)可選列。


1, SAM 文件產(chǎn)生背景

隨著Illumina/Solexa, AB/SOLiD and Roche/454測(cè)序技術(shù)不斷的進(jìn)步,各種比對(duì)工具產(chǎn)生,被用來(lái)高效的將reads比對(duì)到參考基因組。因?yàn)檫@些比對(duì)工具產(chǎn)生不同格式的文件,導(dǎo)致下游分析比較困難,因此一個(gè)通用的格式可以提供一個(gè)很好的接口用于鏈接比對(duì)與下游分析(組裝,變異等,基因分型等)。因此SAM格式應(yīng)運(yùn)而生,主要是用來(lái)存儲(chǔ)測(cè)序reads與參考序列比對(duì)結(jié)果信息的一種文件格式,以TAB為分割符,支持不同平臺(tái)的短reads及長(zhǎng)reads(最長(zhǎng)為128Mbp)。

2,頭部區(qū)簡(jiǎn)要介紹

@HD VN:1.0 SO:unsorted (排序類(lèi)型)
頭部區(qū)第一行:VN是格式版本;SO表示比對(duì)排序的類(lèi)型,有unknown(default),unsorted,queryname和coordinate幾種。samtools軟件在進(jìn)行行排序后不能自動(dòng)更新bam文件的SO值,而picard卻可以。
@SQ SN:contig1 LN:9401 (序列ID及長(zhǎng)度)
參考序列名,這些參考序列決定了比對(duì)結(jié)果sort的順序,SN是參考序列名;LN是參考序列長(zhǎng)度;每個(gè)參考序列為一行。
例如:@SQ SN:NC_000067.6 LN:195471971
@RG ID:sample01 (樣品基本信息)
Read Group。1個(gè)sample的測(cè)序結(jié)果為1個(gè)Read Group;該sample可以有多個(gè)library的測(cè)序結(jié)果,可以利用bwa mem -R 加上去這些信息。
例如:@RG ID:ZX1_ID SM:ZX1 LB:PE400 PU:Illumina PL:Miseq
ID:樣品的ID號(hào) SM:樣品名 LB:文庫(kù)名 PU:測(cè)序以 PL:測(cè)序平臺(tái)
這些信息可以在形成sam文件時(shí)加入,ID是必須要有的后面是否添加看分析要求
@PG ID:bowtie2 PN:bowtie2 VN:2.0.0-beta7 (比對(duì)所使用的軟件及版本)
例如:@PG ID:bwa PN:bwa VN:0.7.12-r1039 CL:bwa sampe -a 400 -f ZX1.sam -r @RG ID:ZX1_ID SM:ZX1 LB:PE400 PU:Illumina PL:Miseq ../0_Reference/Reference_Sequence.fa ZX_HQ_clean_R1.fq.sai ZX_HQ_clean_R2.fq.sai ../2_HQData/ZX_HQ_clean_R1.fq ../2_HQData/ZX_HQ_clean_R2.fq
這里的ID是bwa,PN是bwa,VN是0.7.12-r1039版本。CL可以認(rèn)為是運(yùn)行程序@RG是上面RG表示的內(nèi)容,后面是程序內(nèi)容,這里的@GR內(nèi)容是可以自己在運(yùn)行程序是加入的

3,主體部分介紹

主體部分有11個(gè)主列和1個(gè)可選列
QNAME 比對(duì)的序列名稱(chēng) 例如:M04650:84:000000000-B837R:1:1101:22699:1759(一條測(cè)序reads的名稱(chēng))
FLAG Bwise FLAG(表明比對(duì)類(lèi)型:paring,strand,mate strand等) 例如:99
RENAME 比對(duì)上的參考序列名 例如:NC_000075.6
POS 1-Based的比對(duì)上的最左邊的定位 例如:124057649
MAPQ 比對(duì)質(zhì)量 例如:60
CIGAR Extended CIGAR string(操作符:MIDNSHP)比對(duì)結(jié)果信息;匹配堿基數(shù),可變剪接等 例如:87M
MRNM 相匹配的另外一條序列,比對(duì)上的參考序列名 例如:=
MPOS 1-Based leftmost Mate Position (相比于MRNM列來(lái)講意思和POS差不多) 例如:124057667
ISIZE 插入片段長(zhǎng)度 例如:200
SEQ 和參考序列在同一個(gè)鏈上比對(duì)的序列(若比對(duì)結(jié)果在負(fù)義鏈上,則序列是其反向重復(fù)序列,反向互補(bǔ)序列) 例如:ATTACTTGGCTGCT
QUAL 比對(duì)序列的質(zhì)量(ASCII-33=Phred base quality)reads堿基質(zhì)量值 例如:-8CCCGFCCCF7@E-
可選的列 以TAG:TYPE:VALUE的形式提供額外的信息

4,對(duì)于每一列內(nèi)容的詳細(xì)注解

(如果某一列為“0”或“*”表示這一列沒(méi)有信息)

第一列:QNAME

進(jìn)行reads比對(duì)時(shí)通常表示reads的名字,如果這條reads比對(duì)到多條序列或比對(duì)到這條序列的多個(gè)位置,相同名字會(huì)出現(xiàn)多次。如果是pair-end reads,相同名字會(huì)出現(xiàn)2次,分別表示來(lái)自于R1文件的reads和R2文件的reads,如果其matepair reads也比對(duì)2個(gè)位置,也會(huì)出現(xiàn)2次,則相同名字共出現(xiàn)4次,如果一條reads也比對(duì)2個(gè)位置,則其matepair比對(duì)1個(gè)位置,則共出現(xiàn)3次,如果其matepair reads沒(méi)有比對(duì)上序列也會(huì)出現(xiàn)1次(第三列顯示“*”),所以pair-end測(cè)序,R1文件和R2文件同時(shí)mapping,相同reads的id最少出現(xiàn)2次。

第二列:FLAG

數(shù)值結(jié)果如下:
1(1)該read是成對(duì)的paired reads中的一個(gè)
2(10)paired reads中每個(gè)都正確比對(duì)到參考序列上
4(100)該read沒(méi)比對(duì)到參考序列上
8(1000)與該read成對(duì)的matepair read沒(méi)有比對(duì)到參考序列上
16(10000)該read其反向互補(bǔ)序列能夠比對(duì)到參考序列
32(100000)與該read成對(duì)的matepair read其反向互補(bǔ)序列能夠比對(duì)到參考序列
64(1000000)在paired reads中,該read是與參考序列比對(duì)的第一條
128(10000000)在paired reads中,該read是與參考序列比對(duì)的第二條
256(100000000)該read是次優(yōu)的比對(duì)結(jié)果
512(1000000000)該read沒(méi)有通過(guò)質(zhì)量控制
1024(10000000000)由于PCR或測(cè)序錯(cuò)誤產(chǎn)生的重復(fù)reads
2048(100000000000)補(bǔ)充匹配的read
具體的flag值的解釋?zhuān)梢詤⒖約amtools軟件提供的結(jié)果
samtools(Version: 1.3.1)
其中的samtools flags用法可提供flag值的查找結(jié)果
About: Convert between textual and numeric flag representation
Usage: samtools flags INT|STR[,...]
例如:
samtools flags 10
0xa 10 PROPER_PAIR,MUNMAP (10=2+8)
samtools flags 12
0xc 12 UNMAP,MUNMAP (12=4+8)
具體的flag值的解釋?zhuān)部蓞⒖既缦戮W(wǎng)站:https://broadinstitute.github.io/picard/explain-flags.html
或者在必應(yīng)當(dāng)中搜索flag sam點(diǎn)擊Explain SAM Flags-GitHub Pages進(jìn)入該網(wǎng)頁(yè),也可以輸入組合flag數(shù)值會(huì)出現(xiàn)所存在的意思

第三列:RNAME

表示read比對(duì)的那條序列的序列名稱(chēng)(名稱(chēng)與頭部的@SQ相對(duì)應(yīng)),如果這列是“*”,可以認(rèn)為這條read沒(méi)有比對(duì)上的序列,則這一行的第四,五,八,九 列是“0”,第六,七列與該列是相同的表示方法

第四列:POS

表示read比對(duì)到RNAME這條序列的最左邊的位置,如果該read能夠完全比對(duì)到這條序列(CIGAR string為M)則這個(gè)位置是read的第一個(gè)堿基比對(duì)的位置,如果該read的反向互補(bǔ)序列比對(duì)到這條序列,則這個(gè)位置是read的反向互補(bǔ)序列的第一個(gè)堿基比對(duì)的位置,所以無(wú)論該read是正向比對(duì)到該序列,或是其反向互補(bǔ)序列比對(duì)到該序列,比對(duì)結(jié)果均是最左端的比對(duì)位置

第五列:MAPQ

表示為mapping的質(zhì)量值,mapping Quality, It equals -10log10Pr{mapping position is wrong}, rounded to the nearest integer, A value 255 indicates that the mapping quality is not available. 該值的計(jì)算方法是mapping的錯(cuò)誤率的-10log10值,之后四舍五入得到的整數(shù),如果值為255表示mapping值是不可用的,如果是unmapped read則MAPQ為0,一般在使用bwa mem或bwa aln(bwa 0.7.12-r1039版本)生成的sam文件,第五列為60表示mapping率最高,一般結(jié)果是這一列的數(shù)值是從0到60,且0和60這兩個(gè)數(shù)字出現(xiàn)次數(shù)最多

第六列:CIGAR

CIGAR string,可以理解為reads mapping到第三列序列的mapping狀態(tài),
對(duì)于mapping狀態(tài)可分為以下幾類(lèi):
M:alignment match (can be a sequence match or mismatch)
表示read可mapping到第三列的序列上,則read的堿基序列與第三列的序列堿基相同,表示正常的mapping結(jié)果,M表示完全匹配,但是無(wú)論reads與序列的正確匹配或是錯(cuò)誤匹配該位置都顯示為M
I:insertion to the reference
表示read的堿基序列相對(duì)于第三列的RNAME序列,有堿基的插入
D:deletion from the reference
表示read的堿基序列相對(duì)于第三列的RNAME序列,有堿基的刪除
N:skipped region from the reference
表示可變剪接位置
P:padding (silent deletion from padded reference)
S:soft clipping (clipped sequences present in SEQ)
H:hard clipping (clipped sequences NOT present in SEQ)
clipped均表示一條read的序列被分開(kāi),之所以被分開(kāi),是因?yàn)閞ead的一部分序列能匹配到第三列的RNAME序列上,而被分開(kāi)的那部分不能匹配到RNAME序列上。
“=”表示正確匹配到序列上
“X”表示錯(cuò)誤匹配到序列上
而H只出現(xiàn)在一條read的前端或末端,但不會(huì)出現(xiàn)在中間,S一般會(huì)和H成對(duì)出現(xiàn),當(dāng)有H出現(xiàn)時(shí),一定會(huì)有一個(gè)與之對(duì)應(yīng)的S出現(xiàn)
例如:
162M89S
162H89M
149M102S
149H102M
40S211M
20M1D20M211H
S可以單獨(dú)出現(xiàn),而H必須有與之對(duì)應(yīng)的S出現(xiàn)時(shí)才可能出現(xiàn),不可在相同第一列的情況下單獨(dú)出現(xiàn)
N:如果是mRNA-to-genome,N出現(xiàn)的位置代表內(nèi)含子,其它比對(duì)形式出現(xiàn)N時(shí)則沒(méi)有具體解釋
M/I/S/=/X:這些數(shù)值的加和等于第10列SEQ的長(zhǎng)度

第七列:MRNM

這條reads第二次比對(duì)的位置,在利用bwa mem產(chǎn)生sam文件時(shí),如果該列是“”而
第3列RNAME不是“
”則表示該reads比對(duì)到第3列顯示序列名的序列上,而沒(méi)有比對(duì)到其他位置,在利用bwa aln及bwa sampe比對(duì)生成的sam文件,如果和上述情況相同,則第7列為“=”,上述情況均表示該reads只比對(duì)到這一個(gè)位置
如果第3列RNAME和第7列MRNM都為“*”,則說(shuō)明這條reads沒(méi)有匹配上的序列,如果這條reads匹配兩個(gè)序列,則第一個(gè)序列的名稱(chēng)出現(xiàn)在第3列,而第二個(gè)序列的名稱(chēng)出現(xiàn)在第7列

第八列:MPOS

該列表示與該reads對(duì)應(yīng)的mate pair reads的比對(duì)位置,如果這對(duì)pair-end reads比對(duì)到同一條reference序列上,在sam文件中reads的id出現(xiàn)2次,Read1比對(duì)的第4列等于Read2比對(duì)的第8列。同樣Read1比對(duì)的第8列等于Read2比對(duì)的第4列。例如:
第1列(Read id)····第4列(Read1比對(duì)位置)····第8列(mate-pair reads比對(duì)位置)
22699:1759····124057649····124057667
22699:1759····124057667····124057649
相同的reads id一個(gè)來(lái)自Read1文件,一個(gè)來(lái)自Read2文件,第4列和第8列是對(duì)應(yīng)的

第九列:ISIZE

TLEN:signed observed Template LENgth (可以理解為文庫(kù)插入片段長(zhǎng)度)
如果R1端的read和R2端的read能夠mapping到同一條Reference序列上(即第三列RNAME相同),則該列的值表示第8列減去第4列加上第6列的值,R1端和R2端相同id的reads其第九列值相同,但該值為一正一負(fù),R1文件的reads和R2文件的reads,相同id的reads要相對(duì)來(lái)看。在進(jìn)行該第列值的計(jì)算時(shí),如果取第6列的數(shù)值,一定要取出現(xiàn)M的值,S或H的值不能取。
the unisgned observed template length equals the number of base from the leftmost mapped base to the rightmost mappedbase. Theleftmost segment has a plus sign and the rightmost has a minus sign

https://blog.csdn.net/genome_denovo/article/details/78712972
http://www.biotrainee.com/thread-2704-1-1.html
http://samtools.github.io/hts-specs/SAMv1.pdf
http://boyun.sh.cn/bio/?p=1890

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,428評(píng)論 6 531
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 98,024評(píng)論 3 413
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人,你說(shuō)我怎么就攤上這事。” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 175,285評(píng)論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我,道長(zhǎng),這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 62,548評(píng)論 1 307
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 71,328評(píng)論 6 404
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 54,878評(píng)論 1 321
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 42,971評(píng)論 3 439
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 42,098評(píng)論 0 286
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 48,616評(píng)論 1 331
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 40,554評(píng)論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 42,725評(píng)論 1 369
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,243評(píng)論 5 355
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 43,971評(píng)論 3 345
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 34,361評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 35,613評(píng)論 1 280
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 51,339評(píng)論 3 390
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 47,695評(píng)論 2 370

推薦閱讀更多精彩內(nèi)容