文獻
2021
Molecular Plant
Single-nucleus RNA and ATAC sequencing reveals the impact of chromatin accessibility on gene expression in Arabidopsis roots at the single-cell level
研究背景
組成植物的各種細胞類型的獨特生物學功能取決于它們對相同基因組信息的不同使用,具體而言是產生細胞類型特異性的轉錄譜。基因組信息在細胞之間和細胞類型之間的不同使用被認為部分依賴于不同的染色質可及性。人類ENCODE項目最近發現,在單細胞水平上建立染色質景觀對揭示假定的轉錄因子結合位點具有很重要的作用。在動物科學中,單細胞RNA測序(scRNA-seq)和單細胞ATAC-seq技術已成功應用于各種細胞類型和組織,以更好地了解染色質可及性對基因表達的影響。
scRNA-seq方法已應用于擬南芥根原生質體,可以準確表征數千個細胞的轉錄譜及其在突變體或應激反應中的差異調控。這些研究揭示了單細胞技術在建立各種擬南芥根細胞和細胞類型的轉錄組圖譜以及細胞發育過程中基因表達的動態調控方面的優勢。然而,利用植物原生質體做單細胞測序存在一些問題,如某些細胞類型對細胞壁消化有抵抗力、提取原生質體過程本身對基因表達有顯著影響、對較小的細胞/原生質體的測序存在偏見等。?
作為原生質體的替代品,大量的植物細胞核被用來從植物細胞中獲取轉錄組信息。例如,通過分離水稻根、擬南芥胚胎和種子胚乳上特定細胞類型標記的細胞核技術,從細胞核群體中建立轉錄組。然而,單細胞核測序也存在一些問題,如snRNA-seq會有檢測到的基因偏少的風險。并且,使用完好無損技術的前提是鑒定細胞類型特異性標記基因來表達報告基因,并且需要產生轉基因材料。
結論1 擬南芥根部單細胞核轉錄組數據集
Fig 1a
對擬南芥幼苗根系的細胞核進行純化,并使用10X Genomics Chromium平臺構建sNucRNA-seq文庫,在5個獨立的生物重復中,作者對10548個細胞核的轉錄組進行了測序。由于一些核轉錄本可能不會剪接,我們采用了“pre-mRNA”策略以包含內含子。每個細胞核中平均有1124個表達基因,一共鑒定出24 510個表達基因(占擬南芥蛋白編碼基因的89.4%)。相比之下,Ryu等人選擇的7437個擬南芥原生質體的轉錄組可在每個細胞中檢測到4739個表達基因,共檢測到25177個表達基因(91.8%)。與細胞核相比,每個原生質體中鑒定的表達基因數量更多,這是由于一個細胞中的ployA轉錄本比一個細胞核中的ployA轉錄本更多、更復雜。這一猜想還表明,核轉錄組代表了基因動態轉錄活性的快照,而細胞轉錄組可能代表了基因活性隨時間的整合。
為了評估從sNucRNA-seq數據中獲得的核轉錄組的生物學意義,作者對scRNA-seq和sNucRNA-seq和bulk RNA-seq進行了相關性分析。相關性結果表明擬南芥根的sNucRNA-seq與整個根的bulk 轉錄組的相關性與scRNA-seq的相關性一樣高。
利用Seurat包集成獨立數據集的能力,作者根據10 548個擬南芥根核與7437個擬南芥根原生質體的轉錄組學特征將它們共聚在一起(Fig 1a,藍色為單核數據,橙色為單細胞數據)。
Fig 1b
Fig S2
利用UMAP降維,將擬南芥根不單核核單細胞數據分成21個20個不同的簇(Fig 1b是單核核單細胞合并后的數據,Fig S2中橙色為單細胞,藍色為單核),cluster14是單核中特有的。
Fig 1c
Fig 1c展示了21個cluster的重疊分布,其中cluster4和11在單細胞核中更豐富,cluster14只存在單細胞核中,其他簇在單細胞中更豐富。
這些結果表明,scRNA-seq和sNucRNA-seq提供了相似的轉錄組信息,表明可以利用分離的植物細胞核在單細胞水平上建立有意義的轉錄組信息。此外,與scRNA-seq相比,sNucRNA-seq方法捕獲了更具多樣性和代表性的擬南芥根細胞類型群體。
結論2 擬南芥根部不同細胞簇的功能
Fig 2
作者整理了101個marker基因,然后根據它們的表達量對21個細胞cluster進行注釋。這一策略使我們能夠表征六大類細胞:毛體細胞(簇1-3)、成膜細胞(簇4-7)、分生細胞(簇8-10)、皮層細胞(簇11和12)、內胚層細胞(簇13-16)和柱狀細胞(簇17-21)。此外,根據標記基因的表達模式,我們可以劃分韌皮部和木質部(Fig 2a)。
與之前報告中提到的t-SNE技術相比,UMAP技術生成的簇的拓撲結構揭示了細胞類型內部和細胞類型之間的細胞和細胞核的功能組織。例如,根的分生細胞(即簇8 - 10)定位在UMAP圖的中心(Fig 2a)。從這些分生細胞開始,幾個細長的細胞突起(如簇3、6、7、12和13)以更多的球狀細胞團(如簇1、2、5、11、15和18)結束。細長的簇可能反映了細胞分化過程中轉錄組程序的進行性變化,而球狀簇代表了組成擬南芥根的分化細胞。
Fig S7
為了評估是否可以單獨分析sNucRNA-seq數據來解碼組織異質性,以達到與scRNAseq數據相似的水平,作者獨立分析了擬南芥根核和原生質體的聚類。
使用相同的聚類參數,sNucRNA-seq和scRNA-seq數據分別鑒定出19個和17個聚類(Fig S7)。這些結果表明,核轉錄組足以揭示擬南芥根系的組織異質性。
Fig S8
Cluster14可以細分成cluster14a(內胚層)和cluster14b(皮層)。AT1G61590(PBL15)、AT2G40160(TBL30)、AT2G48130和AT4G17215是內胚層的marker基因,AT5G18840和AT3G21670(NPF6.4/ NRT1.3)是皮質的marker基因(Fig S8)。Cluster14a具有編碼氧化物酶的基因和具有GDSL基序的基因。GDSL家族可以控制細胞分化過程,說明clauster14a可能由分化的細胞組成,這一假設得到了根過氧化物酶在控制活性氧產生以調節細胞伸長和分化中的作用的支持。UPBEAT1基因(AT2G47270)是過氧化物酶基因轉錄活性和活性氧分布的主要抑制因子,并通過調節細胞增殖和分化之間的平衡來負調節擬南芥根尖分生組織的大小,除了4、10、11和14個集群外,其他基因都廣泛表達(Fig S8)。
除了控制細胞分化外,GDSL脂肪酶還在角質素生物合成中發揮核心作用。通過這些數據,作者還發現了其他許多優先在cluster14a中表達餅參與木質素和角質素生物合成的基因,如GPAT5和另一種GDLS基因。之前的研究表明,在側根出現的位置以及內胚層分化過程中,木質素和角質素會大量沉積。綜上所述,UPBEAT1、幾個編碼過氧化物酶、GDSL基因和其他亞木質素/角質素生物合成相關基因的轉錄模式,以及與皮層和內胚層標記基因活性相關的基因,表明組成簇14a的細胞是分化的內胚層細胞,其特征是細胞壁的精化。
簇14a中細胞的轉錄組特征來自于分離的細胞核,而不是來自于分離的原生質體,這可能是由于它們細胞壁的低消化率,這是亞蛋白和角質積累的結果。
Fig S9
Cluster14b的特征是表達皮層中的特異性基因(如AT5G18840和AT3G21670等)。在該cluster中特異性表達的基因中,SCM(AT1G11130)在根表皮細胞的模式化中起關鍵作用(Fig S9)。Cluster14b中也存在參與脂質代謝的幾個基因特異性表達表達(如AT1G45201(TLL1)和AT5G63560)。膜脂重塑在根毛細胞分化中也起著重要作用,綜上所述,推測構成cluster14b的皮質細胞在擬南芥表皮根細胞的分化和成型化中發揮作用。
Fig S10
cluster4的特征是特異性表達CEP1 (AT5G50260)和EX1 (AT2G14095)(Fig S10),這兩個基因之前被認為是根冠細胞死亡程序的調節因子。此外,作者發現KIRA1是一個控制花發育過程中細胞死亡的基因,在cluster4中特異性表達。其他細胞死亡標志基因(即BFN1、RNS3、SCPL48、DMP4和PASPA3)也主要在木質部簇4和木質部簇21的一個亞群中表達。
結論3 單細胞分辨率ATAC-seq揭示了染色質可及性對基因表達的影響
Fig S11
盡管體細胞之間的基因組信息幾乎是相同的,但為了通過細胞類型特異性的轉錄基因調控來實現其獨特的生物學功能,需要基因組信息的不同使用,特別是通過細胞之間不同的染色質可及性來實現。迄今為止,大量RNA和ATAC-seq數據集顯示出較低的相關性,這可能是所使用樣本的細胞異質性的結果。這一假設得到了人類ENCODE項目的支持,該項目最近發現,在單細胞水平上建立染色質景觀對揭示假定的TF結合位點具有很高的信息量。為了更好地評估染色質可及性在控制細胞和細胞類型間植物基因表達中的作用,作者應用10X Genomics的sNucATAC-seq技術對兩個獨立生物重復分離的擬南芥根核進行了分析。在6768個核中,4764個通過了質控(Fig S11)。
Fig S12
每個細胞核中有10 253個獨立的基因組DNA片段被映射到擬南芥基因組中,總共表征了20 803個可訪問的位點。在20803個可訪問的位點中,作者分別鑒定出3487個和15730個位點具有細胞類型特異性峰和“靜態”峰特征(Fig S12)。
Fig 3a-b
染色質的可及性區域大多位于轉錄起始位點上游1000 bp區間,其中包含順式調控元件(Fig 3a)和基因的轉錄終止位點周圍(Fig 3b)。
Fig 3c
考慮到可及性染色質區域是促進基因表達的先決條件,我們預計位于TSS附近的細胞類型特異性ATAC-seq峰有助于調節特定細胞的marker基因的表達。因此,作者使用Signac軟件包整合sNucATAC-seq和sc/sNucRNA-seq,在細胞類型特異性背景下表達的基因TSS附近尋找染色質開放區域。該策略鑒定出11858個具有RNAseq和ATAC-seq配對峰的基因,并創建了21個與sc/sNucRNA-seq簇對應的sNucATAC-seq簇(Fig 3c)。
Fig S14
為了評估使用sc/sNucRNA-seq數據集根據擬南芥細胞核的染色質可接近性特征對其進行聚類的影響,作者根據細胞核開放染色質的差異峰對其進行了重新聚類(Fig S14),這種方法再次鑒定出21個與我們集成的sNucATAC-seq和sc/ sNucRNA-seq分析鑒定出的集群分布略有不同的集群。這一結果表明,染色質可及性譜足以揭示擬南芥根細胞的細胞復雜性。
Fig 3d-e
為了更好地評價sNucATAC-seq與bulk ATAC-seq數據集的分辨率,作者首先比較了擬南芥根核在一個位置(chr1: 21 067 500-21 103 000)生成的sNucATAC-seq和bulk ATAC-seq。在21個簇中,我們可以清楚地識別出由bulk ATAC-seq技術顯示的相同的主要峰(Fig 3d)。此外,sNucATAC-seq方法還發現,在這21個簇的亞群中,有更多的主峰。例如,在sNucATAC-seq簇14和15中,AT1G56320的啟動子區域出現了ATAC-seq峰(Fig 3d),AT1G56320在這兩個集群中特異性表達(Fig 3e),表明單細胞分辨率的ATAC-seq分析有可能揭示可接近染色質的離散和細胞類型特異性位點。
Fig 4
接下來,作者試圖將單細胞的染色質可及性與單細胞的基因表達關聯起來。在對scRNA-seq和sNucRNA-seq數據集進行挖掘后,根據其與其他簇的表達倍數變化和最低p值,從每個簇中選出前20個標記基因。由于簇之間存在冗余,最終一共鑒定出370個獨特的marker基因,其中336個在其TSS附近至少有一個sNucATAC-seq峰。作者還選取了811個在擬南芥根部各個細胞類型中都表達的管家基因作為對照。
對marker基因的非正態分布數據應用Kendall ‘s taub秩相關檢驗,觀察到幾乎所有sc/ sNucRNA-seq和sNucATAC-seq數據集之間都存在顯著的正相關(Fig 4 a為單細胞,b為單核),這一結果支持了差異染色質可及性與marker基因的表達模式相關的觀點。基于這些結果,我們假設,與它們的轉錄活性相似,所選基因在TSS位置的染色質可接近性可以用作細胞類型識別的分子標記。相比之下,對照中只有少數顯著和較中等的相關性。
以上結果說明,核小體在基因組DNA雙鏈上靠近基因TSS的位置,在控制至少一部分標記基因的活性方面起著關鍵作用。
結論4單細胞分辨率下的染色質可接近性可以作為指示根毛和內胚層細胞發育狀態的分子標記
Fig 5
植物的細胞類型是根據marker基因的表達譜來標注的,通過前一部分的分析說明單細胞的染色質可及性也可以作為一種marker來標記細胞類型。為了進一步驗證這一假設,作者利用單細胞分辨率ATAC-seq數據集,重點分析了代表成熟擬南芥根毛和內胚層細胞的3個和4個簇(cluster1、cluster2、cluster3和cluster13、cluster14、cluster15、cluster16,Fig 2)。
在與擬南芥基因TSS配對的11858個sNucATAC-seq峰中,分別有20個和26個在根毛和內胚層cluster中被特異性鑒定。利用scRNA-seq和sNucRNAseq數據集,作者分別鑒定出19個(95%)和25個(96.2%)基因在擬南芥根毛和內胚層細胞中優先表達(即該基因在根毛或內胚層超簇中的表達至少等于該基因在其余5個大簇中的表達,Fig5 a是單核,b是單細胞),說明染色質可及性可以作為一種分子標記來注釋特定的細胞類型。
總結
(1)作者首次驗證了通過分離擬南芥根部核以獲取單細胞水平基因表達信息的可靠性。?
(2)在單細胞水平上提供了轉錄組學和染色質可及性數據的整合。(3)證明了單細胞水平的特異的染色質可及性可以作為一種marker來鑒定細胞類型。?