cis-regulatory motifs
轉錄調控
- Transcription start site (TSS)
- Transcription factor binding sites (TFBS)
- Cis-regulatory module (CRM) 有多個TF在一起
- Proximal promoter and distal enhancer 近端的啟動子遠端的增強子
在人中,有300個TF結合在核心啟動子區域;有1500個結合在基因其他區域,可以調節一系列基因
圖示
- 其中的insulator可以阻隔enhancer起作用
全基因組研究調控原件的主要方法
ChIP-seq:
- peak的高低體現了蛋白的富集程度
- 只能研究單一的蛋白,具有特異性
- 有時候不能找到合適的抗體
DNase-seq
DNase I超敏感位點(DHS)是對DNaseⅠ高度敏感的活性染色質區域,DNase測序(DNase-seq)是進行全基因組DHS分析的常用方法
DNase I是一種非特異性核酸內切酶,基于它們對切割的過敏性,長期以來就被用于對“開放”染色質位點的作圖
chromatin open 的位置很容易有其他蛋白的結合
由于多種蛋白質可以與相同序列相結合,有必要整合DNase-seq測序數據和ChIP-seq測序數據來對引起特定DNase足跡的蛋白質進行定性鑒定
不依賴于抗體或表位標簽,DNase-seq可以用來在一次實驗中分析大量蛋白質的基因組分布
從大范圍來看,結合的位置凸起。如果從小范圍來看,空著的位置剛好是一個可能的motif
ATAC-seq (Assay for transposase- accessiblechromatin using sequencing)
- 通過Tn5轉座酶,優先標記和測序核小體之間的DNA
- ATAC-seq提供的信息與新DNase-seq法差不多,但步驟更為簡單,需要的細胞也更少
- 在無法獲得大量細胞的情況下,ATAC-seq更有幫助。
文章原圖
A genomic locus analysed by complementary chromatinprofiling experiments reveals different aspects ofchromatin structure
ChIP–seq reveals binding sites of specifictranscription factors (TFs); DNase-seq, ATAC-seq andFAIRE–seq reveal regions of open chromatin; andMNase-seq identifies well-positioned nucleosomes.
In ChIP–seq, specific antibodies are used toextract DNA fragments that are bound to the targetprotein, either directly or through other proteins ina complex that contains the target factor.
In DNase-seq, chromatin is lightly digested by theDNase I endonuclease. Size selection is used toenrich for fragments that are produced in regions ofchromatin where the DNA is highly sensitive to DNaseI attack.
ATAC-seq is an alternative method to DNase-seq thatuses an engineered Tn5 transposase to cleave DNA andto integrate primer DNA sequences into the cleavedgenomic DNA (that is, tagmentation).
Micrococcal nuclease (MNase) is an endo–exonucleasethat processively digests DNA until an obstruction,such as a nucleosome, is reached.
In FAIRE–seq, formaldehyde is used to crosslink chromatin, and phenol–chloroform is used to isolate sheared DNA.
結合在哪里
Some TFs almost always bind in proximal promoter regions
Others bind to many regions
常用的表示方法
Position weight matrix (PWM)
把所有堿基出現的次數相加,高度表示可信度
這種方法過于簡單,不能表示出堿基之間的關系。
假設各個堿基之間均為獨立
How is specificity of binding achieved
motif 定義
有時并非直接和DNA結合
How to identify TF binding sites?
沒有序列比對的時候
Given a collection of genes that are likely to be regulated by the same TFs (or orthologous genes across different species — methods based on phylogenetic footprinting principles), find the TF-binding motifs in common
但是問題是不知道motif是什么,找不到相關的基因,而且如何排除背景干擾
最原始的方法是多重序列比對MSA
比較保守的非編碼區域可能有
PhyloCon — comparative genomic approach
- 結合序列比對和共表達基因
- 共表達基因很可能收到相同的motif調控
- 但并不是所有的elements都保守
Expectation-Maximization (EM) 目前最常用的方法(MEME)
Expectation-Maximization
In each iteration, it learns the PWM model and identifies examples of the matrix (sites in the input sequences) 在每一次迭代中,學習一個PWMmodel然后再通過輸入的序列進行比對
MEME works by iteratively refining PWMs and identifying sites for each PWM(不同的迭代直到找到一個最合適的PWM)
The intuitive idea is as follows:
- Estimate motif model (PWM)
Start with a k-mer seed (random or specified)通常是6個
Build a PWM by incorporating some of background frequencies 根據背景生成一個初始的PWM
- Identify examples of the model
For every k-mer in the input sequences, identify its probability given the PWM model 計算k-mer在輸入序列中給出PWM出現的概率
- Re-estimate the motif model
Calculate a new PWM, based on the weighted frequencies of all k-mers in the input sequences
根據input序列中k-mer出現頻率的權重更新PWM
- Iteratively refine the PWMs and identify sites until convergence
例子1
1.1
1.2
1.3
在MEME中
相關文獻
過程
首先設置model, 然后經歷Estep和Mstep,找到合適的PWM
然后將PWM進行極大似然轉換并取log
然后看輸入序列中出現該motif的概率
What does transcription factor binding mean in terms of regulating target genes?
人的大多數結合位點都是在內含子和基因間區
Stronger sites are not closer to differentially regulated genes (not necessarily more functional)
Majority of functional sites not conserved
目前很難預測靶基因
ChIP-seq call peak 的策略和思想
ChIP-seq技術
核心思想
macs原理
TF在基因組上的結合其實是一個隨機過程,基因組的每個位置其實都有機會結合某個TF,只是概率不一樣
peak出現的位置,是TF結合的熱點,而peak-calling就是為了找到這些熱點。
熱點:位置多次被測得的read所覆蓋(我們測的是一個細胞群體,read出現次數多,說明該位置被TF結合的幾率大)。
read出現多少次算多:假設TF在基因組上的分布沒有任何規律,測序得到的read在基因組上的分布也必然是隨機的,某個堿基上覆蓋的read的數目應該服從二項分布。
當n很大,p很小時,二項分布可以近似用泊松分布替代
\lambda是泊松分布唯一的參數,n是測序得到的read總數目,l是單個read的長度,s是基因組的大小。
我們可以算出在某個置信概率(如0.00001)下,隨機情況下,某個堿基上可以覆蓋的read的數目的最小值,當實際觀察到的read數目超過這個值(單側檢驗)時,我們認為該堿基是TF的一個結合熱點。反過來,針對每一個read數目,我們也可以算出對應的置信概率P。
實際情況由于測序、mapping過程內在的偏好性,以及不同染色質間的差異性,相比全基因組,某些堿基可能內在地會被更多的read所覆蓋,這種情況得到的很多peak可能都是假的。
MACS考慮到了這一點,當對某個堿基進行假設檢驗時,MACS只考慮該堿基附近的染色質區段(如10k),此時,上述公式中n表示附近10k區間內的read數目,s被置為10k。當有對照組實驗(Control,相比實驗組,沒有用抗體捕獲TF,或用了一個通用抗體)存在時,利用Control組的數據構建泊松分布,當沒有Control時,利用實驗組,稍大一點的局部區間(比如50k)的數據構建泊松分布。
read只是跟隨著TF一起沉淀下來的DNA fragment的末端,read的位置并不是真實的TF結合的位置。
在peak-calling之前,延伸read是必須的。不同TF大小不一樣,對read延伸的長度也理應不同。
我們知道測得的read最終其實會近似地平均分配到正負鏈上,這樣對于一個TF結合熱點而言,read在附近正負鏈上會近似地形成“雙峰”。
MACS會以某個window size掃描基因組,統計每個window里面read的富集程度,然后抽?。ū热?000個)合適的(read富集程度適中,過少,無法建立模型,過大,可能反映的只是某種偏好性)window作樣本,建立“雙峰模型”。
最后,兩個峰之間的距離就被認為是TF的長度D,每個read將延伸D/2的長度
ChIP-seq后續分析
If we are given a set of ChIP-seq peaks, how to identify motif for the TF— use MEME
To find out what the sequence motif resembles — use TomTom
Use known motif to search peak regions — use FIMO
Study common biological pathways or functions of potential target genes of the TF — use GREAT
劉曉樂實驗室ChIP-seq數據分析流程
基因調控網絡
貝葉斯網絡
定義:包括一個有向無環圖(DAG)和一個條件概率表集合。DAG中每一個節點表示一個隨機變量,可以是可直接觀測變量或隱藏變量,而有向邊表示隨機變量間的條件依賴;條件概率表中的每一個元素對應DAG中唯一的節點,存儲此節點對于其所有直接前驅節點的聯合條件概率
性質:每一個節點在其直接前驅節點的值制定后,這個節點條件獨立于其所有非直接前驅前輩節點
類似Markov過程,貝葉斯網絡可以看做是Markov鏈的非線性擴展。這條特性的重要意義在于明確了貝葉斯網絡可以方便計算聯合概率分布。
通過基因表達來推測網絡
model圖形說明
- DAG:有向無環圖
- Conditional probabilitydistribution (CPD) 條件概率分布
- 多變量非獨立聯合條件概率分布 P(G1,G2,G3,G4,G5)求取公式
模型選擇
訓練參數
CPD for discrete expression level
實際含義
module network 模塊網絡
每個節點不是一個基因合適若干基因
經典文章
主要過程
- 具有隱藏變量
- 首先將基因進行cluster
- 然后M步學習,E步調整
無方向圖
分析過程要給已經構建的相關性矩陣取逆
當樣本很小時無法進行轉換要使用lasso算法
關鍵在于如何確定公式中的lamada
這樣不需要所有節點之間都有邊