第3篇:用MACS2軟件call peaks

學習目標:

  • 學會用MACS2 call peaks
  • 理解MACS2 call peaks的結果

Peak Calling

Peak calling即利用計算的方法找出ChIP-seq或ATAC-seq中reads富集的基因組區域。



如下圖所示,比對結果的文件中reads在正負鏈不均勻分布,但在結合位點聚集。正負鏈5‘末端的reads各形成一組合,通過統計學的方法評估這些組合的分布并和對照組比較,確定這些結合位點是否是顯著的。


NOTE:ChIP-seq的分析方法可以鑒定兩種類型的富集模式:broad domainsnarrow peaks。broad domains,如組蛋白修飾在整個基因body區域的分布;narrow peak,如轉錄因子的結合。narrow peak相對于broad 或者分散的marks更易被檢測到。也有一些混合的結合圖譜,如PolII包括narrow和broad信號。


MACS2

peaks calling 有不同的方法,MACS2是最常用的call peaks工具。 MACS全稱Model-based Analysis of ChIP-Seq,最初的設計是用來鑒定轉錄因子的結合位點,但是它也可以用于其他類型的富集方式測序。
MACS通過整合序列標簽位置信息和方向信息提高結合位點的空間分辨率。MACS的工作流如下所示:


MACS2的使用方法

MACS2的用法,call peaks的參數及輸出文件的解讀可以參考MACS2文檔學習

了解相關參數:

輸入文件參數:

  • -t:實驗組,IP的數據文件
  • c: 對照組
  • f:指定輸入文件的格式,默認是自動檢測輸入數據是什么格式,支持bam,sam,bed等
  • g:有效基因組大小,由于基因組序列的重復性,基因組實際可以mapping的大小小于原始的基因組。這個參數要根據實際物種計算基因組的有效大小。軟件里也給出了幾個默認的-g 值:hs -- 2.7e9表示人類的基因組有效大小(UCSC human hg18 assembly).
    • hs: 2.7e9
    • mm: 1.87e9
    • ce: 9e7
    • dm: 1.2e8

輸出文件參數:

  • --outdir:輸出結果的存儲路徑
    --n:輸出文件名的前綴
  • -B/--bdg:輸出bedgraph格式的文件,輸出文件以NAME+'_treat_pileup.bdg' for treatment data, NAME+'_control_lambda.bdg' for local lambda values from control顯示。

peak calling 參數

  • -q/--qvalue-p/--pvalue
    q value默認值是0.05,與pvalue不能同時使用。
  • --broad
    peak有narrow peak和broad peak, 設置時可以call broad peak 的結果文件。
  • --broad-cutoff
    和pvalue、以及qvalue相似
  • --nolambda: 不要考慮在峰值候選區域的局部偏差/λ

q值與峰寬有一定的聯系。理想情況下,如果放寬閾值,您將簡單地獲得更多的峰值,但是使用MACS2放松閾值也會導致更寬的峰值。

Shift 模型參數:

  • --nomodel
    這個參數和extsize、shift是配套使用的,有這個參數才可以設置extsize和shift。
  • --extsize
    當設置了nomodel時,MACS會用--extsize這個參數從5'->3'方向擴展reads修復fragments。比如說你的轉錄因子結合范圍200bp,就設置這個參數是200。
  • --shift
    當設置了--nomodel,MACS用這個參數從5' 端移動剪切,然后用--extsize延伸,如果--shift是負值表示從3'端方向移動。建議ChIP-seq數據集這個值保持默認值為0,對于檢測富集剪切位點如DNAsel數據集設置為EXTSIZE的一半。
    示例:
  1. 想找富集剪切位點,如DNAse-seq,所有5'端的序列reads應該從兩個方向延伸,如果想設置移動的窗口是200bp,參數設置如下:
    --nomodel --shift -100 --extsize 200
  2. 對nucleosome-seq數據,用核小體大小的一半進行extsize,所以參數設置如下:
    --nomodel --shift 37 --extsize 73
  • --call-summits
    MACS利用此參數重新分析信號譜,解析每個peak中包含的subpeak。對相似的結合圖譜,推薦使用此參數,當使用此參數時,輸出的subpeak會有相同的peak邊界,不同的績點和peak summit poisitions.

ATAC-Seq call peaks示例

ATAC-seq關心的是在哪切斷,斷點才是peak的中心,所以使用shift模型,--shift -75或-100
對人細胞系ATAC-seq 數據call peak的參數設置如下:

macs2 callpeak -t H1hesc.final.bam -n sample --shift -100 --extsize 200 --nomodel -B --SPMR -g hs --outdir Macs2_out 2> sample.macs2.log

MACS2輸出文件解讀

  • NAME_peaks.xls
    包含peak信息的tab分割的文件,前幾行會顯示callpeak時的命令。輸出信息包含:
    • 染色體號
    • peak起始位點
    • peak結束位點
    • peak區域長度
    • peak的峰值位點(summit position)
    • peak 峰值的高度(pileup height at peak summit, -log10(pvalue) for the peak summit)
    • peak的富集倍數(相對于random Poisson distribution with local lambda)

      Coordinates in XLS is 1-based which is different with BED format
      XLS里的坐標和bed格式的坐標還不一樣,起始坐標需要減1才與narrowPeak的起始坐標一樣。
  • NAME_peaks.narrowPeak
    *narrowPeak文件是BED6+4格式,可以上傳到UCSC瀏覽。輸出文件每列信息分別包含:
    • 1;染色體號
    • 2:peak起始位點
    • 3:結束位點
    • 4:peak name
    • 5:int(-10*log10qvalue)
    • 6 :正負鏈
    • 7:fold change
    • 8:-log10pvalue
    • 9:-log10qvalue
    • 10:relative summit position to peak start(?)


  • NAME_summits.bed
    BED格式的文件,包含peak的summits位置,第5列是-log10pvalue。如果想找motif,推薦使用此文件。

Remove the beginning track line if you want to analyze it by other tools.???

  • .bdg
    bedGraph格式,可以導入UCSC或者轉換為bigwig格式。兩種bfg文件:treat_pileup, and control_lambda.
  • NAME_peaks.broadPeak
    BED6+3格式與narrowPeak類似,只是沒有第10列。

summits.bed,narrowPeak,bdg, xls四種類型輸出文件的比較:

  • xls文件
    文件包含信息還是比較多的,和narrowPeak唯一不同的是peak的起始位置需要減1才是bed格式的文件,另外還包含fold_enrichment 和narrowPeak的fold change 對應,-log10pvalue,-log10qvalue,peak長度,peak 峰值位置等。
  • narrowPeak文件
    和xls文件信息類似
  • summits.bed文件
    包含峰的位置信息和-log10pvalue
  • bdg文件
    bdg文件適合導入UCSC或IGV進行譜圖可視化,或者轉換為bigwig格式再進行可視化。
    為什么染色體號后面會出現其他的字符串????

參考資料:

HBC的深度NGS數據分析課程
MCAS2文檔

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,882評論 6 531
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,208評論 3 414
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 175,746評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,666評論 1 309
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,477評論 6 407
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 54,960評論 1 321
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,047評論 3 440
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,200評論 0 288
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,726評論 1 333
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,617評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,807評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,327評論 5 358
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,049評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,425評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,674評論 1 281
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,432評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,769評論 2 372

推薦閱讀更多精彩內容