序列比對和序列特征分析總目錄
啟動子Promoter是位于基因5'端上游的DNA序列,調控基因表達。作用方式是通過與轉錄因子結合。關于啟動子更詳細的簡文請看查找一個基因的啟動子序列
- 原核生物啟動子區有明顯的共同一致的序列,而真核基因啟動子區域多種轉錄因子相互作用共同完成調控,調控機制更加復雜。
- 真核生物的啟動子的-25~-35區域含有TATA序列,是RNA聚合酶的識別區,可以使轉錄精確起始,稱為核心啟動子元件
- 而-70-80區域含有CCAAT序列,-80-110區域有GCCACACCC或GGGCGGG序列,這兩個區域控制轉錄的起始頻率。
- TATA上游保守序列叫上游啟動子元件(Upstream promoter element,UPE)或上游激活序列(Upstream activating sequence,UAS)。
- 真核有很多轉錄因子,同一個轉錄因子可以調控多個gene,轉錄因子結合的DNA序列是比較短的DNA片段,而在整個基因組又有大量重復序列,這些都給轉錄因子結合位點的識別帶來難度。所以,識別的時候要結合基因結構信息,如CpG島,外顯子/內含子信息等
啟動子結合位點和TFBS常用數據庫有
-
EPD(eukaryotic promoter database):
有注釋的非冗余的真核生物RNA聚合酶II啟動子數據庫,轉錄因子起始位點(Transcription start site, TSS)都經過試驗獲得。 -
TRANSFAC
真核生物轉錄調控信息數據庫,收錄數據也都經過驗證,包含轉錄因子,轉錄調控關系及轉錄因子結合位點等信息,物種也比較全,有人,大鼠,小鼠,酵母,線蟲,擬南芥,果蠅等。 - DBTSS
- TRRD
如何搜索目的DNA序列中是否含有已知位點的序列模式?
-
PromoterScan
可以根據轉錄因子結合序列同源性分析啟動子區polII和其他調控因子結合位點 - TESS(transcription element search system)可以搜索轉錄元件
1 啟動子區域預測
1.1 PromoterScan
舉例:人類ALB基因(NC_000004.12)啟動子區域轉錄因子結合位點分析
-
首先,NCBI找到ALB基因序列,選取該序列5'端上游2000bp,3'下游100bp的序列,復制FASTA格式序列,提交到promoterscan,下圖,submit
image.png
-
結果如下
-
解釋
- promoter score:默認50,越大可靠性越強,本例為53.7
- 啟動子位于正鏈1727-1977之間
- significant signals顯示了與該啟動子區域結合的TF的名稱,編號,鏈,位置和權重,本例顯示有5個TF結合位點,點擊TFD可以查看具體信息。
1.2Promoter 2.0
1.3細菌啟動子預測1
1.4細菌啟動子預測2
1.5細菌操縱子預測
1.5真核啟動子預測
轉錄因子結合位點分析
- 啟動子是RNA聚合酶的識別,結合和起始轉錄的特定DNA序列,是順勢作用元件。
轉錄因子結合位點,transcription factor binding site,TFBS,位于啟動子中,是與轉錄因子結合的DNA序列,長度月5-20bp。 - 真核有很多轉錄因子,同一個轉錄因子可以調控多個gene,轉錄因子結合的DNA序列是比較短的DNA片段,而在整個基因組又有大量重復序列,這些都給轉錄因子結合位點的識別帶來難度。
3 轉錄終止信號預測
轉錄終止信號是mRNA序列3'端終止密碼子下游的加尾信號。3'加尾是真核mRNA轉錄后的3個最主要的加工方式之一(加帽,加尾,內含子剪切)。
加尾與mRNA穩定,細胞內轉運,翻譯起始等有很大關系。
轉錄終止信號序列主要特征為AATAAA序列,也叫polyA信號,其識別就是基于此特征。
主要工具有
2.1 POLYAH
PLOYAH
2.2ARNold:
不依賴Rho因子的轉錄終止序列預測,可顯示莖環結構。
2.2 FindTerm:
也可以用于非Rho依賴型終止子發現。一次只能發現一個terminator,如果處理長序列,一旦定位一個終止子,需要把這端序列刪除,然后再重新提交。