文獻名:Chromatin and gene-regulatory dynamics of the developing human cerebral cortex at single-cell resolution
manifold:
流形是一種空間,一個流形好比是一個 d 維的空間,在一個 m 維的空間中 (m > d) 被扭曲之后的結果(一般維度壓縮的方法中都會提到這個詞,譜聚類中就有涉及這個思想),可以類似于地球,地球的表面是一個球面。
流形的距離度量方法不能簡單地使用歐式距離求任意兩點地距離。假設現在需要求從北極到達南極距離,不可能把地球打穿直線到達,根據實際情況可以知道,北極到達南極的距離應該是半個圓周的長度
原文鏈接:https://blog.csdn.net/qq_30545831/article/details/81776819
Part4:
Chromatin and gene expression profiles identify two astrocyte precursor populations
染色質和基因表達譜確定了兩個星形膠質細胞前體群體
人類皮質星形膠質細胞更大,形態更復雜,并且可能比其他哺乳動物的更多樣化。然而,人類星形膠質細胞潛在多樣化的基本步驟尚不清楚。作者觀察到三個相互連接的模糊基因模塊,主要來源于PCW24組織,表達AQP4、TNC、ALDH2和APOE,以及星形膠質細胞中特異表達的其他基因(m2、m13、m14)(圖5A)。
為了測試這些轉錄相關但不同的亞群是否與不同的調節因子相關,作者計算了與m13和m14基因相關的增強子之間的差異基序富集。作者發現基本螺旋-環-螺旋(bHLH)因子基序ASCL1和NHLH1在模塊m13中富集,而SOX21在m14中富集(圖5B)。
在作者研究結果的神經膠質細胞中,ASCL1和NHLH1基序的可及性與bHLH因子OLIG1的基因表達相關性最好,并且作者先前已將SOX21指定為皮質類器官星形膠質細胞成熟的潛在調節因子。因此,通過OLIG1與SOX21基序的染色質可及性可以區分兩種不同的星形膠質細胞樣表達模式。
為了更詳細地檢查表達這些模塊的細胞之間的差異,作者計算了星形細胞簇A1-HES和A2-OLIG之間的差異基因表達,分別對應于模塊m2/14和m13的表達(圖5C和5D;表S5)。
簇A1-HES表現出HES4和CAV2的顯著高表達,而A2-OLIG的特征是SPARCL1、ID3和IGFBP7表達增加(圖5D)。
為了確定這些不同的星形膠質細胞前體亞型是否是由于不同皮質區域的取樣所致,作者使用了最近發布的scRNA-seq數據集(圖5E)。
作者發現,在這個獨立的數據集中,屬于作者的星形細胞類別的基因集在不同的細胞群中表達,這一觀察結果不能用皮質區域的差異來解釋(圖5F)。
這些發育狀態可能對應于成年亞型,例如在整個皮質灰質中發現的原生質星形膠質細胞,在白質中發現的纖維狀星形膠質細胞,或populate layer 1的靈長類特異性 interlaminar 星形膠質細胞。
Part5:
Chromatin state links GPCs to lineage determination in cycling cells
染色質狀態將GPC與循環細胞中的譜系測定聯系起來
接下來,作者研究了祖細胞的染色質狀態如何可能影響表達程序的獲得,這些表達程序具有更分化的細胞狀態的特征。因此,作者關注表達與細胞周期特征密切相關的基因模塊的細胞之間的異質性(圖6A;Pearson r分別為0.89和0.91)。
為了將染色質可及性與以膠質細胞為中心的表達圖譜聯系起來,作者使用可及性衍生的基因活性得分將13378個膠質細胞scATAC-seq細胞的假體積聚集體投射到作者的基因模塊衍生的流形中。與作者的CCA簇匹配分析(圖2B)一致,pseudobulks主要由投射到該圖少突膠質細胞終點的ATAC簇c15(OPC/LIGO)細胞、投射到ASCL1+/OLIG2+星形膠質細胞室的簇c10(mGPC)數據和簇c9(late RG)組成投射到室管膜和HES4+星形膠質細胞endpoints的數據(圖6B)。
然而,雖然作者在染色質landscape中沒有觀察到明顯的循環簇,但這些ATAC-seq假塊樣本的一個子集投射到RNA-seq嵌入的cycling cluster、 early-pseudotime compartment中。這些樣本被劃分為三個不同的分支,它們由scATAC seq cluster 分配定義(圖6C)。
作者推測RNA-seq中強大的cell-cycle signatures可能減少了這些差異,而這些差異在ATAC-seq數據中更為明顯,分析這些獨立的分支可能使作者能夠確定cycling progenitors是否傾向于不同的有絲分裂后命運。
為了探索影響這些命運決定的因素,作者根據每個分支的gene activity scores確定了每個分支的特定基因。作者觀察到這些基因與一組GPC(包括HES1、RFX4、OLIG1、OLIG2、NEUROD6和EOMES)有很強的重疊。總的來說,所有三個cycling cells分支中的差異染色質活性都因GPC而富集(圖6D)。
每個分支在前五個最獨特的基因(BHLHE40、OLIG1、OLIG2、NEUROD6、NEUROD4)中至少富集了一個bHLH GPC TF(圖6E)。
這些factors的注釋motif的相似性與假設一致,即它們可以競爭相似的結合位點來驅動多個不同的細胞命運。總之,這些結果表明,GPC的不同染色質活性和基因表達是區分不同類型 cycling glial progenitor cells.的顯著特征。
接下來,作者想知道這些GPC是否既與密集的調控元件集合高度相關,又高度富集譜系定義的轉錄因子。為了評估這些聯系是否可能是最終分化終點的指標,從而潛在地驅動分化,作者僅使用GPC相關染色質信號重新預測A、B和C循環群體分支的ATAC-seq pseudobulk 樣本。作者觀察到樣本在偽時間內向前移動到具有不同、更成熟表達狀態的區域(圖6F),
而使用隨機基因亞群或基因模塊的重投影則非特異性地向流形的中心移動。這一觀察結果表明,這些循環細胞中與GPC基因相關的染色質模式已經顯示出高級轉錄細胞狀態的特征。類似地,當作者將來自聯合多組數據集的scRNA-seq數據投射到基于模塊的manifold中時,投射到循環域的一部分細胞顯示出來自每個分支的更多分化細胞的不同可訪問性特征(圖6G)。基于這些結果,作者提出,在皮質發生過程中,進入細胞周期的祖細胞可能在表觀遺傳學上為未來的細胞命運做好準備,并且該信息在GPC中進行了編碼,GPC是一組具有大量連接增強子的基因,豐富了與譜系定義的TFs的結合。
Part6:
Deep-learning models prioritize disruptive noncoding mutations in ASD
深度學習模型優先考慮ASD中的disruptive非編碼突變
接下來,作者使用作者的圖譜解釋ASD中的非編碼從頭突變,使用1902個家族中超過200000個此類突變的Simons Simplex集合目錄(表S6)。與未受影響兄弟姐妹相比,具有簇特異性scATAC-seq峰的突變的原始重疊(Naive overlap)不會使ASD個體的突變富集(GluN6簇的優勢比[OR]=1.02,Fisher精確檢驗p=1.0;圖S8F),表明僅峰值水平注釋不足以解決一組稀疏的因果突變。
深度學習模型已被證明有助于根據預測的監管影響對疾病相關的非編碼基因變體進行優先排序。因此,作者基于最新的BPNet架構對卷積神經網絡進行訓練,以學習能夠預測每個scATAC-seq衍生細胞類型的堿基分辨率、pseudo-bulk染色質可及性的模型,這些細胞類型來自基因組序列(圖7A)
使用峰區和基因組背景,匹配GC含量和基序密度,以糾正潛在的序列組成偏差。模型顯示,在交叉驗證模型的5倍范圍內,預測的總Tn5插入計數覆蓋率與觀察到的Tn5插入計數覆蓋率之間存在高度穩定的相關性(例如,GluN6,平均Spearman rho=0.58)。為了預測候選突變對染色質可及性的細胞上下文特異性影響,作者使用作者的cluster特異性BPNet模型根據預測計數中的等位基因fold-change變化計算local disruption score。對于每個簇,作者計算了病例組和對照組中high- effect-size突變的富集程度。作者觀察到GluN2/3/4/6/9的ASD相關突變顯著富集(>1.2倍),這與之前的研究一致。此外,作者發現了與IN2/3/4、nIPC、late RG和early RG簇的強烈關聯。early RG簇的富集程度最高(OR=1.909,超過20,Fisher精確p<0.05;圖7B;表S6)。
作者還觀察到,這種對因果破壞性突變進行優先排序的方法對閾值參數選擇具有魯棒性。相比之下,使用人類胎心增強劑訓練的BPNet模型沒有產生富集(OR=1.01,p=1.0)。同樣,使用一組胎心enhancers的naive overlap enrichment也不會對病例突變產生富集(OR=0.97,p=1.0;圖7C)。總之,這些結果表明,在與疾病相關的細胞狀態中,對染色質可及性景觀進行訓練的堿基對分辨率預測模型的突變效應分數對于確定假定的因果非編碼突變的優先級至關重要。
BPNet模型優先考慮的病例和對照突變具有相似的保守性得分和與最近轉錄起始點(TSS)的相似距離,突出了通過其他方法識別這些因果突變的挑戰。通過對預測的高效應大小突變及其最近的基因進行注釋,作者觀察到SFARI數據庫中最近基因的病例突變(n=24)比對照突變(n=17;圖7D)富集1.4倍。
接下來,作者確定了overlapped的TF基序,并預測其將被來自所有正富集簇的BPNet模型的所有高效大小突變所破壞(圖7E,表S6)。作者發現,在病例組和對照組中,劃分demarcates topological loop boundaries的CTCF是最常被破壞的基序之一。NRF1基序是另一個經常被破壞的基序。NRF調節先前與疾病相關的GABA受體亞單位GABRB1。與對照組相關的病例中其他經常被破壞的基序家族包括E-box/bHLH家族基序(ASCL1,NEUROD6)和同源框家族(PAX5)基序,具有更多譜系特異性效應。之前也發現同源框蛋白被ASD中的變體破壞。
作者模型中的一個高度破壞性突變位于NFIA的一個內含子中(圖7F和S8M)。該基因的功能缺失突變先前與ASD有關。該突變位于NFIA靶基因的連鎖內含子增強子中。作者觀察到,這種增強子在不同類型的GluN cluster中特別容易獲得。GluN6的BPNet模型預測了破壞NFIA基序的突變,表明該突變可能通過自動調節反饋失調NFIA基因的表達。
在nIPC集群中,BPNet模型預測了與神經肽Y基因(NPY)相連的基因間增強子的破壞性從頭突變,其TSS距離突變90 kb(圖7G)。NPY在妊娠中期人類皮質的subplate和早期RG中表達,NPY受體的基因組缺失與ASD相關。該模型進一步預測了這種從頭突變破壞染色質環錨定處的CTCF結合位點,表明該位點的染色質結構可能受到潛在的機械影響。
(終于把這篇文獻譯完了)