學習目標:
- 學會用MACS2 call peaks
- 理解MACS2 call peaks的結果
Peak Calling
Peak calling即利用計算的方法找出ChIP-seq或ATAC-seq中reads富集的基因組區域。
如下圖所示,比對結果的文件中reads在正負鏈不均勻分布,但在結合位點聚集。正負鏈5‘末端的reads各形成一組合,通過統計學的方法評估這些組合的分布并和對照組比較,確定這些結合位點是否是顯著的。
NOTE:ChIP-seq的分析方法可以鑒定兩種類型的富集模式:broad domains和narrow peaks。broad domains,如組蛋白修飾在整個基因body區域的分布;narrow peak,如轉錄因子的結合。narrow peak相對于broad 或者分散的marks更易被檢測到。也有一些混合的結合圖譜,如PolII包括narrow和broad信號。
MACS2
peaks calling 有不同的方法,MACS2是最常用的call peaks工具。 MACS全稱Model-based Analysis of ChIP-Seq,最初的設計是用來鑒定轉錄因子的結合位點,但是它也可以用于其他類型的富集方式測序。
MACS通過整合序列標簽位置信息和方向信息提高結合位點的空間分辨率。MACS的工作流如下所示:
MACS2的使用方法
MACS2的用法,call peaks的參數及輸出文件的解讀可以參考MACS2文檔學習。
了解相關參數:
輸入文件參數:
-
-t
:實驗組,IP的數據文件 -
c
: 對照組 -
f
:指定輸入文件的格式,默認是自動檢測輸入數據是什么格式,支持bam,sam,bed等 -
g
:有效基因組大小,由于基因組序列的重復性,基因組實際可以mapping的大小小于原始的基因組。這個參數要根據實際物種計算基因組的有效大小。軟件里也給出了幾個默認的-g 值:hs -- 2.7e9表示人類的基因組有效大小(UCSC human hg18 assembly).- hs: 2.7e9
- mm: 1.87e9
- ce: 9e7
- dm: 1.2e8
輸出文件參數:
-
--outdir
:輸出結果的存儲路徑
--n
:輸出文件名的前綴 -
-B/--bdg
:輸出bedgraph格式的文件,輸出文件以NAME+'_treat_pileup.bdg' for treatment data, NAME+'_control_lambda.bdg' for local lambda values from control顯示。
peak calling 參數
-
-q/--qvalue
和-p/--pvalue
q value默認值是0.05,與pvalue不能同時使用。 -
--broad
peak有narrow peak和broad peak, 設置時可以call broad peak 的結果文件。 -
--broad-cutoff
和pvalue、以及qvalue相似 -
--nolambda
: 不要考慮在峰值候選區域的局部偏差/λ
q值與峰寬有一定的聯系。理想情況下,如果放寬閾值,您將簡單地獲得更多的峰值,但是使用MACS2放松閾值也會導致更寬的峰值。
Shift 模型參數:
-
--nomodel
這個參數和extsize、shift是配套使用的,有這個參數才可以設置extsize和shift。 -
--extsize
當設置了nomodel時,MACS會用--extsize
這個參數從5'->3'方向擴展reads修復fragments。比如說你的轉錄因子結合范圍200bp,就設置這個參數是200。 -
--shift
當設置了--nomodel,MACS用這個參數從5' 端移動剪切,然后用--extsize延伸,如果--shift是負值表示從3'端方向移動。建議ChIP-seq數據集這個值保持默認值為0,對于檢測富集剪切位點如DNAsel數據集設置為EXTSIZE的一半。
示例:
- 想找富集剪切位點,如DNAse-seq,所有5'端的序列reads應該從兩個方向延伸,如果想設置移動的窗口是200bp,參數設置如下:
--nomodel --shift -100 --extsize 200
- 對nucleosome-seq數據,用核小體大小的一半進行extsize,所以參數設置如下:
--nomodel --shift 37 --extsize 73
-
--call-summits
MACS利用此參數重新分析信號譜,解析每個peak中包含的subpeak。對相似的結合圖譜,推薦使用此參數,當使用此參數時,輸出的subpeak會有相同的peak邊界,不同的績點和peak summit poisitions.
ATAC-Seq call peaks示例
ATAC-seq關心的是在哪切斷,斷點才是peak的中心,所以使用shift模型,--shift -75或-100
對人細胞系ATAC-seq 數據call peak的參數設置如下:
macs2 callpeak -t H1hesc.final.bam -n sample --shift -100 --extsize 200 --nomodel -B --SPMR -g hs --outdir Macs2_out 2> sample.macs2.log
MACS2輸出文件解讀
-
NAME_peaks.xls
包含peak信息的tab分割的文件,前幾行會顯示callpeak時的命令。輸出信息包含:- 染色體號
- peak起始位點
- peak結束位點
- peak區域長度
- peak的峰值位點(summit position)
- peak 峰值的高度(pileup height at peak summit, -log10(pvalue) for the peak summit)
- peak的富集倍數(相對于random Poisson distribution with local lambda)
Coordinates in XLS is 1-based which is different with BED format
XLS里的坐標和bed格式的坐標還不一樣,起始坐標需要減1才與narrowPeak的起始坐標一樣。
-
NAME_peaks.narrowPeak
*narrowPeak文件是BED6+4格式,可以上傳到UCSC瀏覽。輸出文件每列信息分別包含:- 1;染色體號
- 2:peak起始位點
- 3:結束位點
- 4:peak name
- 5:int(-10*log10qvalue)
- 6 :正負鏈
- 7:fold change
- 8:-log10pvalue
- 9:-log10qvalue
-
10:relative summit position to peak start(?)
-
NAME_summits.bed
BED格式的文件,包含peak的summits位置,第5列是-log10pvalue。如果想找motif,推薦使用此文件。
Remove the beginning track line if you want to analyze it by other tools.???
-
.bdg
bedGraph格式,可以導入UCSC或者轉換為bigwig格式。兩種bfg文件:treat_pileup, and control_lambda. -
NAME_peaks.broadPeak
BED6+3格式與narrowPeak類似,只是沒有第10列。
summits.bed,narrowPeak,bdg, xls四種類型輸出文件的比較:
- xls文件
文件包含信息還是比較多的,和narrowPeak唯一不同的是peak的起始位置需要減1才是bed格式的文件,另外還包含fold_enrichment 和narrowPeak的fold change 對應,-log10pvalue,-log10qvalue,peak長度,peak 峰值位置等。 - narrowPeak文件
和xls文件信息類似 - summits.bed文件
包含峰的位置信息和-log10pvalue - bdg文件
bdg文件適合導入UCSC或IGV進行譜圖可視化,或者轉換為bigwig格式再進行可視化。
為什么染色體號后面會出現其他的字符串????