scATAC文獻:人類大腦皮質單細胞水平染色質和基因調控的動態發育圖譜---方法

文獻名:Chromatin and gene-regulatory dynamics of the developing human cerebral cortex at single-cell resolution

singular value:

一 scATAC processing

使用“cellranger atac mkfastq”(10x基因組學,v.1.2.0)將原始測序數據轉換為fastq格式。scATAC-seq reads與GRCh38(hg38)參考基因組,并使用“cellranger atac count”(10x Genomics, v.1.2.0)進行定量。

使用“chracr”R包(v.dev.0.9.11+)進一步處理Fragment data。我們篩選出sequencing fragments少于1000或超過50000的細胞。使用(Granja et al.,2019)中描述的方法計算TSS富集作為信噪比的度量,我們丟棄TSS富集小于4的細胞。性染色體和線粒體DNA上的片段被排除在下游分析之外。

為了獲得單細胞ATAC數據集在主成分和UMAP坐標方面的低維表示,我們采用了迭代潛在語義索引(iterative latent semantic indexing)方法(Granja et al.,2019)。該方法還確定了22個細胞簇和一組共有657930個cluster peaks。簡言之,在初始迭代中,根據20000個most accessible的5kb-tiling regions域確定了集群。在此,首先使用term frequency-inverse document frequency(TF-IDF)變換對計數進行歸一化,并基于這些歸一化計數計算singular values。使用Louvain聚類(在Seurat軟件包中實現,分辨率參數=0.6)根據前25個singular values確定初始聚類,排除第一個singular values,因為它與read深度的相關系數超過0.5。然后使用MACS2(v2.1.1)在每個cluster的所有cell的aggregated insertion sites上執行Peak calling。通過從每組重疊峰中選擇得分最高的峰,獲得一組一致的、長度均勻的non-overlapping peaks。在第二次迭代中,其TF IDF歸一化計數在初始聚類中表現出最高可變性的50000個峰值為使用前50個derived singular values的精細聚類提供了基礎。在最后一次迭代中,經過refined clusters中50000個最可變的峰被確定為最終峰集,并再次計算singular values。UMAP坐標和ATAC簇是根據這些最終singular values的前10個確定的。使用“uwot”R軟件包中實現的UMAP生成二維表示(v.0.1.8; parameter settings: ‘min.dist = 0.6’, ‘n.neighbors = 50’, ‘cosine’ distance metric)。

ChromVAR(v.1.6)用于使用JASPAR 2018數據庫中的位置權重矩陣獲得TFaccessibility profiles。使用“ChrAccR”將Gene activity scores計算為TSS相關峰的aggregated accessibility。為此,使用寬度參數sigma=10000 bp的徑向基函數(radial basis function RBF)分配的權重,將TSS 100000 bp內的peak counts相加,將最小漸近權重(minimum asymptotic weight)設置為0.25。對于每個基因,所得分數通過權重之和標準化。對于可視化和下游分析,單個細胞的計數已重新調整為10000計數,并已進行log2標準化。為了增強二維UMAP空間中的可視化效果,利用奇異值空間中確定的細胞鄰域,使用MAGIC diffusion algorithm(van Dijk等人,2018)平滑了(smoothed )基因活性分數。由于此類imputation方法與 risk of oversmoothing相關(,我們限制了MAGIC在數據可視化中的應用。

我們通過在200bp基因組平鋪窗口中對簇pseudobulk samples的insertion counts求和來創建ATAC信號軌跡,并提供與WashU表觀基因組瀏覽器兼容的trackhub(http://epigenomegateway.wustl.edu)除了推測的CRE-gene links外,還包含這些profiles。

Matching of single-cell transcriptomes and epigenomes
Seurat實施的典型相關分析(CCA)已分別應用于每個妊娠時間點的匹配單細胞RNA和ATAC數據。為此,我們計算log-normalized and scaled gene activity scores,作為scATAC-seq分析的細胞中基因表達的替代物。作為整合特征,我們使用每種模式中2000個最可變基因的結合作為Seurat的“FindTransferAnchors”功能的input,使用reduction method “cca”和參數“k.anchor=10”。對于scRNA-seq分析的每個細胞和scATAC-seq分析的每個細胞,我們通過在聯合CCA L2空間中應用最近鄰搜索,在各自的其他模式中識別最近鄰細胞。使用“FNN”R包確定最近鄰,使用帶有歐氏距離的“kd_tree”算法。這些來自所有妊娠時間點的基于最近鄰的細胞匹配被連接起來,以獲得跨兩種模式的數據集范圍的細胞匹配。

Linking gene regulatory elements and gene expression across all cell types
我們使用基于相關性的方法識別了peak-to-gene links,該方法應用于聚集scATAC和scRNA計數的pseudobulk samples 。通過從整個scATAC seq數據集中隨機抽取200個細胞來定義這些pseudobulk samples 。將這200個種子細胞與其各自的99個最近鄰細胞在ATAC-PC空間中組合,使得每個pseudobulk samples 總共包含100個細胞。峰的pseudobulk ATAC insertion counts通過對各單細胞成員的峰插入計數求和獲得。通過選擇與CCA空間中的100個ATAC細胞相似的最近鄰的100個scRNA細胞,獲得匹配的RNA細胞。通過對各單細胞成員的基因計數求和獲得pseudobulk RNA基因計數。類似地,在多組數據集中,從ATAC模式中采集了100個細胞的200個pseudobulk samples,并在RNA空間聚集相同的細胞。每個匹配的pseudobulk samples分別用其或有RNA和ATAC細胞的多數簇和年齡分配進行注釋。

然后,我們通過將基因組距離在1到250kb之間的峰與蛋白質編碼的TSS關聯,并將lincRNA基因與相應基因關聯,獲得候選峰基因對。對于每個候選峰值基因對,我們計算可及性和基因表達數據的CPM標準化計數的Pearson相關系數,并根據其t統計量計算這些系數的FDR調整P值。我們通過僅保留| PCC |>0.4和FDR調整的P值<0.05的配對,定義了一組64878個高置信peak-to-gene links。使用相同的方法,為多組數據獲得了一組相應的76374條links。推斷的和multiome peak-gene links之間的重疊是通過為每個鏈接創建“‘GenomicInteraction”對象來計算的,peak作為第一個錨,基因啟動子作為第二個錨,然后應用帶有參數“use.region = ‘both’”的函數“findOverlaps”

Validation of inferred peak-gene links using conservation and chromosome conformation capture data

為了使用orthogonal分析驗證上述linkages,采用了兩種方法。首先,對于multiome and singleome linkages,使用“GenomicScore”軟件包中的“gscores”函數,計算linked and unlinked peaks的phastCons 100-way vertebrate conservation scores。使用 Wilcoxon rank-sum test比較linked and unliked peaks的得分。

其次,我們使用最近發布的鄰近連接輔助芯片測序(PLAC-seq)數據集對3D接觸進行了分析,該數據集針對大腦皮層4種分類發育人類細胞類型中的H3K4me3位點(Song等人,2020年)。數據集由來自FACS分類的中間神經元、興奮性神經元、放射狀膠質細胞和來自分離的人類大腦皮層組織的中間祖細胞的啟動子捕獲3D接觸文庫組成。因此,這個orthogonal 3D contact dataset提供了兩個驗證軸:第一,增強子-啟動子linkages,第二,這些linkages的細胞類型特異性。

來自PLAC-seq數據的Interaction calls作為“GenomicInteractions”對象導入,并與我們的linkages overlap(“FindVerlaps”)。為了驗證,both interactions 的兩個錨都需要重疊。我們對所有可能的peak-gene links、顯著推斷的peak-gene links進行了分析,并且,由于這些正交數據類型不符合1:1,對于independent test,我們也在overlap分析之前預篩選了與PLAC-seq區域的任何一維相互作用的significant links。

為了解釋significant links的skewed length distribution,我們還從所有可能鏈接的空間(每個鏈接10000個)生成了1000個長度匹配permutations。首先,對于significant peak-gene links,計算peak-promoter distance。將距離分為25個0-250kb的等分箱,并計算每個箱中peak-gene links的比例。接下來,我們將所有可能的peak-gene links分配給一個bin和真實分布中相應的比例。比例被用作繪制排列的抽樣概率。然后,根據該length-matched null model計算PLAC-seq overlaps。

最后,我們推斷,如果inferred linkages是有效的,驗證的基因也會表現出細胞類型限制性表達模式,與3D contact的分類細胞類型一致。為了確定這一點,我們計算了RNA-seq數據中主要細胞類型中linked genes的表達。然后,我們根據PLAC-seq相互作用的細胞類型來源來劃分這些表達值。同樣,對于linkages的ATAC-seq峰值,我們計算了相同邊界上scATAC-seq數據的mean accessibility。

Identification of genes with predictive chromatin (GPCs)
GPC的定義主要基于單個細胞之間的high gene activity-expression correlations。為了使這一分析對技術變異更具魯棒性,我們將分析局限于背側前腦細胞中最可變的基因(1999個基因)。具體而言,我們使用了URD包中的“findVariableGenes”函數,參數為“diffCV.cutoff=0.15,mean.min=0.004”。對于每個可變基因,我們計算ATAC細胞的基因活性得分向量與RNA數據中相應最近鄰細胞的表達得分向量之間的Spearman相關系數。我們還將這些相關性與每個基因的linked enhancers per gene進行了比較。從這個子集中,我們將GPC定義為與至少10個CRE相關的 前10%基因活性表達相關性中的基因。

Calculation of motif synergy and correlation scores

我們使用“getAnnotationSynergy”chromVAR函數計算motif簇之間的pairwise synergy scores。這些分數定義為包含兩個不同motif簇的結合位點的CREs中染色質活性的差異,以及隨機子樣本CREs中的可達性差異,該隨機子樣本CREs僅包含一個motif簇的結合位點(差異較大的基序簇)。這一定義基于這樣一種直覺,即與只有一個TF可以結合的基因座相比,兩個TF可以潛在結合的基因組基因座的可及性更高的動態性(方差)暗示了TFs的潛在共同依賴性。因此,正協同分數對應于潛在共結合所解釋的可及性可變性超過獨立基序發生所解釋的可變性的相互作用。為了區分motif accessibility中的co-dependence概念和簡單相關性,我們還使用chromVAR中的“getAnnotationCorrelation”函數計算了相關系數。該分數定義為分別從包含一個但不包含另一個基序簇的基序的CRE計算的aggregate motif activity scores(偏差分數)之間的相關性。

Fuzzy c-means: clustering and re-projection approach

對于fuzzy clustering analysis,首先從膠質細胞簇(單個細胞的10%)中隨機選擇1267個種子細胞,選擇的數量與簇大小成比例。通過將這些細胞與其scRNA PCA空間中的50個最近鄰結合,對Pseudobulk數據集進行Pseudobulk。接下來,使用R軟件包“URD”中的功能“findVariableGenes”確定1957個可變表達基因。通過對構成每個Pseudobulk的各個單細胞成員的特征計數求和,形成pseudobulk counts matrix 。

使用R軟件包“e1071”中的函數“cmeans”對該pseudobulk matrix 進行pseudobulk matrix 聚類,參數c=14,m=1.25,產生了一個按模塊劃分的基因“membership matrix”和一個按模塊劃分的樣本“centers matrix”。為了確定下游分析的“fixed”或binarized module membership,我們將threshold membership score定義為將所有基因分配給一個簇的最大得分(閾值=0.06)。使用R包“clusterProfiler”中的函數“enrichGO”計算每個模塊的基因本體豐富度。使用Jaccard指數計算所有模塊對之間的模塊連接性,并通過應用基因共享的Jaccard指數的0.2閾值連接模塊。通過應用肘部法選擇該閾值。為了可視化模塊之間的連接,使用R軟件包“UMAP”,使用中心矩陣(逐個模塊采樣)作為UMAP降維的基礎。

最后,重復該過程,將聚類參數(c,m)和membership threshold across a range of values;從c=6到c=30,從m=1到2;以確保生成的嵌入結構不會對聚類參數過于敏感。

Projecting ATAC-seq data into fuzzy clustering space and GPC projection

scATAC細胞的Pseudobulk samples是使用上述基因活性評分方法生成的。該矩陣被子集以匹配RNA模糊聚類分析的特征(基因)。在缺少特征的情況下,使用其中間基因活性估算值。為了將ATAC-seq細胞投射到RNA模糊聚類嵌入中,我們轉置了membership matrix,并用偽塊矩陣將其與基因活性相乘。最后,我們使用R“stats”中的“predict”函數,模糊聚類UMAP模型作為第一個參數,得到的轉置乘積矩陣作為第二個參數,以確定ATAC偽塊的UMAP坐標。

為了執行投影操作,我們獲取樣本X基因活性分數矩陣,并將其乘以來自模糊C-均值聚類的特征loadings(genes X loadings)。生成的矩陣被輸入用于創建original manifold.的同一UMAP模型。這提供了流形上投影點和地標之間相似性的可視化。為了將此操作限制在GPC中,我們強制其他基因的基因活性分數為中位數。因此,同樣的樣本被預測兩次,一次考慮所有基因,另一次只考慮GPC。這兩點是圖6F中arrow visualization的基礎。最后,為了提供該轉化的基線,我們使用隨機和定義的對照基因集執行了該操作。

?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,428評論 6 531
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,024評論 3 413
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 175,285評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,548評論 1 307
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,328評論 6 404
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 54,878評論 1 321
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 42,971評論 3 439
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,098評論 0 286
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,616評論 1 331
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,554評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,725評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,243評論 5 355
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 43,971評論 3 345
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,361評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,613評論 1 280
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,339評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,695評論 2 370

推薦閱讀更多精彩內容