0. ATAC-seq能做什么?
ATAC-seq可用于:
- 得到在不同組織或不同條件下對應 可及性區域(NFR fragment)
- 得到 核小體位置(Mononucleosome fragments)
- 鑒定重要轉錄因子和生成 轉錄因子結合區域的特征(footprint)
- 生成 表觀基因組圖譜(peaks)
ATAC-seq分析流程概覽
ATAC-seq分析流程概覽
1. ATAC-seq數據比對后質控
本文掠過 堿基質控 -->mapping-->序列篩選(去duplicated reads 和 去除線粒體基因組 )的步驟
1.1 插入片段質控
插入片段大小的分布可以用來判斷ATAC-seq實驗的質量。插入片段大小的理論分布為:NFR fragments(<100 bp)、核小體單體(~200 bp)、核小體二聚體(~400 bp)和核小體三聚體(~600 bp),每個位置上都會有對應的特征性的峰分布(如下圖)
1.2 TSS富集峰圖
NFR的片段(下圖:黑線實線)應該在基因的轉錄起始位點(TSS)周圍富集,而核小體結合區域的片段(下圖:紅色虛線)應該在TSS處被形成低谷
2. Shifting reads
由于Tn5是以二聚體的方面結合到染色體上的,其跨度大致是9bp,在分析的時候便需要回補這個9bp的堿基差。具體的做法是將正鏈和負鏈,reads應分別偏移 +4 bp和 -5 bp,以便實現TF足跡和基序的堿基對相關分析。
3. Peak Calling
許多ChIP-seq數據的Peak calling軟件可以用于ATAC-seq數據,而 ENCODE 項目 選擇MACS2作為ATAC-seq的標準Peak calling軟件。為了保持數據一致可對比,很多研究者也都采用MACS2軟件。Peak calling的結果通常以bed格式或bdg格式進行展示。
ENCODE項目(Encyclopedia of DNA Elements,DNA元件百科全書)是一個由美國國家人類基因組研究所(NHGRI)在2003年9月發起的一項公共聯合研究項目,旨在找出人類基因組中所有的功能組件。這是繼完成 “人類基因組計劃” 后國家人類基因組研究所開始的最重要的項目之一。
Peak Calling軟件根據原理主要分為兩大類:Count-based方法和Shaped-based方法。一般Count-based方法的軟件更易于使用和解釋結果。這些軟件采用不同的統計方法比較目標區域和隨機背景區域的reads分布形狀。其中HMMRATAC是專門為ATAC-seq開發的軟件,除了比較占用內存之外,其性能還是很不錯的。
4. Peak differential analysis
目前沒有專門為ATAC-seq開發的差異peak分析軟件。差異peak分析首先通過尋找候選區域(共有peak或根據bin劃分的基因組),然后標準化后對這些區域內的片段進行計數,最后在相同坐標內與其他處理條件的樣本進行統計學比較。
5. Peak annotation
一般情況下,軟件會關聯Peak與 “距離其最近的基因” 或者 “調控元件” 來進行peak注釋, HOMER、ChIPseeker、ChIPpeakAnno等軟件都可以把peak分配到最近或重疊的基因、外顯子、內含子、啟動子、5'UTR、3’UTR和其他基因組功能區。隨后可以用GO、KEGG、Reactome等數據庫做peak關聯基因功能富集分析。
6. Motif 相關分析
開放的染色質區域一般可以結合特定的轉錄因子進而影響轉錄過程,轉錄因子識別的DNA序列即為motif。對motif的分析包括 motif富集分析 和 轉錄因子footprint分析。
6.1 motif富集分析
目前適用最普遍的motif數據庫是JASPAR數據庫,其中收錄了很多物種的motif數據。
首先獲得每個peak區域里的motif位置和頻率,然后與隨機背景或另一種條件的背景進行比較,最后得到motif富集的結果。
6.2 轉錄因子footprint分析
轉錄因子footprit 是指一個轉錄因子結合在DNA上,阻止Tn5酶切割,在染色質開放區域留下一個相對缺失的位置。
目前該分析需要解決的3個問題:
(1)建庫時Tn5酶切會產生9bp的粘性末端切口,經過末端修復補齊后,原始reads在預處理時經過移位才可以準確檢測到footprint(前面介紹的軟件已經解決)
(2)Tn5酶切具有5‘端偏好性
(3)某些瞬時結合的轉錄因子footprint信號比較弱
目前轉錄因子footprint分析根據算法分為兩類: de novo 和 motif-centric
- de novo:該類型的軟件需要通過理論計算來鑒別轉錄因子的footprint信息,并且消除Tn5酶切時的5’偏好性。目前只有HINT-ATAC可以處理ATAC-seq數據特有的偏好性。該方法在一些低質量和新發現的一些motif上具有優勢。
- Motif-centric:此類方法主要關注已知TF的結合位點,主要軟件有MILLIPEDE、DeFCoM等。聯合ChIP-seq數據的Motif-centric方法在footprint分析上優于de nove的方法,但是這些ChIP-seq數據來源于特定的轉錄因子和特定的細胞類型,通用性并不強。
Postscript: ATAC-seq數據可以通過聯合分析RNA-seq數據來發現哪些差異表達的基因是受染色質可及性調控的,進一步可以推測這些差異表達的基因哪些是受開放染色質中具有motif和footprint的轉錄因子調控的,因此ATAC-seq與RNA-seq的聯合分析有助于破譯基因調控網絡和細胞異質性。
參考鏈接:http://www.lxweimin.com/p/77462a146e29
參考文獻:From reads to insight: a hitchhiker’s guide to ATAC-seq data analysis