調控基因組

cis-regulatory motifs

轉錄調控

img
  • Transcription start site (TSS)
  • Transcription factor binding sites (TFBS)
  • Cis-regulatory module (CRM) 有多個TF在一起
  • Proximal promoter and distal enhancer 近端的啟動子遠端的增強子

在人中,有300個TF結合在核心啟動子區域;有1500個結合在基因其他區域,可以調節一系列基因

圖示

img
  • 其中的insulator可以阻隔enhancer起作用

全基因組研究調控原件的主要方法

img

ChIP-seq:

  • peak的高低體現了蛋白的富集程度
  • 只能研究單一的蛋白,具有特異性
  • 有時候不能找到合適的抗體

DNase-seq

img
  • DNase I超敏感位點(DHS)是對DNaseⅠ高度敏感的活性染色質區域,DNase測序(DNase-seq)是進行全基因組DHS分析的常用方法

  • DNase I是一種非特異性核酸內切酶,基于它們對切割的過敏性,長期以來就被用于對“開放”染色質位點的作圖

  • chromatin open 的位置很容易有其他蛋白的結合

  • 由于多種蛋白質可以與相同序列相結合,有必要整合DNase-seq測序數據和ChIP-seq測序數據來對引起特定DNase足跡的蛋白質進行定性鑒定

  • 不依賴于抗體或表位標簽,DNase-seq可以用來在一次實驗中分析大量蛋白質的基因組分布

  • 從大范圍來看,結合的位置凸起。如果從小范圍來看,空著的位置剛好是一個可能的motif

ATAC-seq (Assay for transposase- accessiblechromatin using sequencing)

  • 通過Tn5轉座酶,優先標記和測序核小體之間的DNA
  • ATAC-seq提供的信息與新DNase-seq法差不多,但步驟更為簡單,需要的細胞也更少
  • 在無法獲得大量細胞的情況下,ATAC-seq更有幫助。

文章原圖

img
  • A genomic locus analysed by complementary chromatinprofiling experiments reveals different aspects ofchromatin structure

  • ChIP–seq reveals binding sites of specifictranscription factors (TFs); DNase-seq, ATAC-seq andFAIRE–seq reveal regions of open chromatin; andMNase-seq identifies well-positioned nucleosomes.

  • In ChIP–seq, specific antibodies are used toextract DNA fragments that are bound to the targetprotein, either directly or through other proteins ina complex that contains the target factor.

  • In DNase-seq, chromatin is lightly digested by theDNase I endonuclease. Size selection is used toenrich for fragments that are produced in regions ofchromatin where the DNA is highly sensitive to DNaseI attack.

  • ATAC-seq is an alternative method to DNase-seq thatuses an engineered Tn5 transposase to cleave DNA andto integrate primer DNA sequences into the cleavedgenomic DNA (that is, tagmentation).

  • Micrococcal nuclease (MNase) is an endo–exonucleasethat processively digests DNA until an obstruction,such as a nucleosome, is reached.

  • In FAIRE–seq, formaldehyde is used to crosslink chromatin, and phenol–chloroform is used to isolate sheared DNA.

結合在哪里

Some TFs almost always bind in proximal promoter regions

Others bind to many regions

常用的表示方法

Position weight matrix (PWM)

img
  • 把所有堿基出現的次數相加,高度表示可信度

  • 這種方法過于簡單,不能表示出堿基之間的關系。

  • 假設各個堿基之間均為獨立

How is specificity of binding achieved

motif 定義

img

有時并非直接和DNA結合

img

How to identify TF binding sites?

img

沒有序列比對的時候

Given a collection of genes that are likely to be regulated by the same TFs (or orthologous genes across different species — methods based on phylogenetic footprinting principles), find the TF-binding motifs in common

但是問題是不知道motif是什么,找不到相關的基因,而且如何排除背景干擾

最原始的方法是多重序列比對MSA

比較保守的非編碼區域可能有

PhyloCon — comparative genomic approach

  • 結合序列比對和共表達基因
  • 共表達基因很可能收到相同的motif調控
  • 但并不是所有的elements都保守

Expectation-Maximization (EM) 目前最常用的方法(MEME)

Expectation-Maximization

In each iteration, it learns the PWM model and identifies examples of the matrix (sites in the input sequences) 在每一次迭代中,學習一個PWMmodel然后再通過輸入的序列進行比對

MEME works by iteratively refining PWMs and identifying sites for each PWM(不同的迭代直到找到一個最合適的PWM)

The intuitive idea is as follows:

  1. Estimate motif model (PWM)

Start with a k-mer seed (random or specified)通常是6個
Build a PWM by incorporating some of background frequencies 根據背景生成一個初始的PWM

  1. Identify examples of the model

For every k-mer in the input sequences, identify its probability given the PWM model 計算k-mer在輸入序列中給出PWM出現的概率

  1. Re-estimate the motif model

Calculate a new PWM, based on the weighted frequencies of all k-mers in the input sequences
根據input序列中k-mer出現頻率的權重更新PWM

  1. Iteratively refine the PWMs and identify sites until convergence

例子1

img

1.1

img

1.2

img

1.3

img

在MEME中

相關文獻

img

過程

首先設置model, 然后經歷Estep和Mstep,找到合適的PWM

然后將PWM進行極大似然轉換并取log

img

然后看輸入序列中出現該motif的概率

img

What does transcription factor binding mean in terms of regulating target genes?

人的大多數結合位點都是在內含子和基因間區

Stronger sites are not closer to differentially regulated genes (not necessarily more functional)

Majority of functional sites not conserved

目前很難預測靶基因

img

ChIP-seq call peak 的策略和思想

ChIP-seq技術

img

核心思想

img

macs原理

TF在基因組上的結合其實是一個隨機過程,基因組的每個位置其實都有機會結合某個TF,只是概率不一樣

peak出現的位置,是TF結合的熱點,而peak-calling就是為了找到這些熱點。

熱點:位置多次被測得的read所覆蓋(我們測的是一個細胞群體,read出現次數多,說明該位置被TF結合的幾率大)。

read出現多少次算多:假設TF在基因組上的分布沒有任何規律,測序得到的read在基因組上的分布也必然是隨機的,某個堿基上覆蓋的read的數目應該服從二項分布。

當n很大,p很小時,二項分布可以近似用泊松分布替代

img

\lambda是泊松分布唯一的參數,n是測序得到的read總數目,l是單個read的長度,s是基因組的大小。

我們可以算出在某個置信概率(如0.00001)下,隨機情況下,某個堿基上可以覆蓋的read的數目的最小值,當實際觀察到的read數目超過這個值(單側檢驗)時,我們認為該堿基是TF的一個結合熱點。反過來,針對每一個read數目,我們也可以算出對應的置信概率P。

實際情況由于測序、mapping過程內在的偏好性,以及不同染色質間的差異性,相比全基因組,某些堿基可能內在地會被更多的read所覆蓋,這種情況得到的很多peak可能都是假的。

MACS考慮到了這一點,當對某個堿基進行假設檢驗時,MACS只考慮該堿基附近的染色質區段(如10k),此時,上述公式中n表示附近10k區間內的read數目,s被置為10k。當有對照組實驗(Control,相比實驗組,沒有用抗體捕獲TF,或用了一個通用抗體)存在時,利用Control組的數據構建泊松分布,當沒有Control時,利用實驗組,稍大一點的局部區間(比如50k)的數據構建泊松分布。

read只是跟隨著TF一起沉淀下來的DNA fragment的末端,read的位置并不是真實的TF結合的位置。

在peak-calling之前,延伸read是必須的。不同TF大小不一樣,對read延伸的長度也理應不同。

我們知道測得的read最終其實會近似地平均分配到正負鏈上,這樣對于一個TF結合熱點而言,read在附近正負鏈上會近似地形成“雙峰”。

MACS會以某個window size掃描基因組,統計每個window里面read的富集程度,然后抽?。ū热?000個)合適的(read富集程度適中,過少,無法建立模型,過大,可能反映的只是某種偏好性)window作樣本,建立“雙峰模型”。

最后,兩個峰之間的距離就被認為是TF的長度D,每個read將延伸D/2的長度

img

ChIP-seq后續分析

If we are given a set of ChIP-seq peaks, how to identify motif for the TF— use MEME

To find out what the sequence motif resembles — use TomTom

Use known motif to search peak regions — use FIMO

Study common biological pathways or functions of potential target genes of the TF — use GREAT

劉曉樂實驗室ChIP-seq數據分析流程

基因調控網絡

貝葉斯網絡

定義:包括一個有向無環圖(DAG)和一個條件概率表集合。DAG中每一個節點表示一個隨機變量,可以是可直接觀測變量或隱藏變量,而有向邊表示隨機變量間的條件依賴;條件概率表中的每一個元素對應DAG中唯一的節點,存儲此節點對于其所有直接前驅節點的聯合條件概率

性質:每一個節點在其直接前驅節點的值制定后,這個節點條件獨立于其所有非直接前驅前輩節點

類似Markov過程,貝葉斯網絡可以看做是Markov鏈的非線性擴展。這條特性的重要意義在于明確了貝葉斯網絡可以方便計算聯合概率分布。

通過基因表達來推測網絡

img

model圖形說明

img
  • DAG:有向無環圖
  • Conditional probabilitydistribution (CPD) 條件概率分布
  • 多變量非獨立聯合條件概率分布 P(G1,G2,G3,G4,G5)求取公式

模型選擇

img

訓練參數

img

CPD for discrete expression level

img

實際含義

img

module network 模塊網絡

每個節點不是一個基因合適若干基因

經典文章

img

主要過程

img
  • 具有隱藏變量
  • 首先將基因進行cluster
  • 然后M步學習,E步調整

無方向圖

分析過程要給已經構建的相關性矩陣取逆

當樣本很小時無法進行轉換要使用lasso算法

img

關鍵在于如何確定公式中的lamada

img

這樣不需要所有節點之間都有邊


加入靠譜熊基地,和大家一起交流
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,401評論 6 531
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,011評論 3 413
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事?!?“怎么了?”我有些...
    開封第一講書人閱讀 175,263評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,543評論 1 307
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,323評論 6 404
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 54,874評論 1 321
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 42,968評論 3 439
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,095評論 0 286
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,605評論 1 331
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,551評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,720評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,242評論 5 355
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 43,961評論 3 345
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,358評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,612評論 1 280
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,330評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,690評論 2 370

推薦閱讀更多精彩內容

  • 非常優秀的研究總結,值得學習領會和思考。因為字數太多,可以去作者的博文地址http://www.huangshuj...
    王詩翔閱讀 4,201評論 1 24
  • 什么是高通量測序? 高通量測序技術(High-throughput sequencing,HTS)是對傳統Sang...
    翠湖心影閱讀 21,135評論 2 81
  • 古代雜交事件為慈鯛科魚類的適應輻射提供動力 Ancient hybridization fuels rapid c...
    智取鳥氨酸閱讀 4,668評論 0 5
  • Baby: 實體店: 輪狀病毒疫苗192rmb 手足口疫苗②210rmb On-line: ·尿不濕: 奶粉: 輔食:
    兔子歐尼q閱讀 224評論 0 0
  • 他說 思念是夏日里的一場驟雨 總在夜深的時候來襲 敲打著窗上的玻璃 也澆濕了夢中一雙雙無助的眼睛 你說 思念是門前...
    雨眠之夜閱讀 190評論 0 3