單細胞轉錄多樣性是發育潛能的一個標志
本篇文章首發于單細胞天地
單細胞RNA測序(scRNA-seq)是重建細胞分化軌跡的有力方法。然而,同時推斷分化的狀態與方向是一項具有挑戰性的工作。作者利用這種轉錄多樣性的度量方法來開發了計算框架(CytoTRACE),從而利用scRNA-seq數據預測分化狀態。鏈接是Science Pub Date : DOI:10.1126/science.aax0249.文章標題:Single-cell transcriptional diversity is a hallmark of developmental potential
摘要
單細胞RNA測序(scRNA-seq)是一種重建細胞分化軌跡的有效方法。然而,同時推斷分化的狀態與方向是具有挑戰性的任務。在這里,我們展示了一個簡單而精確的發育潛力的決定因素——每個細胞表達基因的數量——并利用這個轉錄多樣性的測量來開發一個計算框架(細胞追蹤)來預測來自scRNA-seq數據的分化狀態。當應用于不同的組織類型和生物體時,細胞追蹤技術在解決52條實驗確定的發育軌跡方面的表現優于先前的方法,并且可以解析將近19000個帶注釋的基因集。此外,該方法也促進了靜態干細胞的鑒定,并揭示了與乳腺癌發生有關的基因。因此,本研究建立了一個基于RNA的發育潛力關鍵特征和一個描述細胞層次結構的平臺。
數據分析情況
作者從34篇研究中選擇42個單細胞scRNA-seq測序數據集用來鑒定和驗證發育潛力。
詳細信息作者放在了補充材料里面。放一張圖片,顯示部分數據集信息。
表達矩陣可以下載:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSEGSE138536.
結果
RNA-based correlates of single-cell differentiation states
基于RNA相關的單細胞分化狀態
我們的最初目標是在不需要對發育方向或標記細胞命運轉變的中間細胞狀態有先驗知識的情況下,確定強大的,基于RNA的發育潛能決定因素。利用scRNA-seq數據,我們評估約 19000細胞能力的潛在關聯,包括分子特征數據庫中所有可用的基因集(n = 17810), 896個中的所有可用基因集,涵蓋了來自ENCODE和ChEA的轉錄因子結合位點的896個基因集,源自mRNA表達的干性指數(mRNAsi),以及三種推斷干性作為轉錄熵的量度的計算技術[StemID,SCENT和SLICE]。我們還探討了“基因計數”效用,即每個細胞中可檢測到的表達基因的數量。雖然在有限的環境中觀察到與分化狀態相關的現象[小鼠肺泡發育和斑馬魚血小板發育],但這種關聯的可靠性以及它是否反映了細胞個體發育的一般特性尚不清楚。為了評估這些基于rna的特征,我們編制了一個訓練隊列,由9個標準的scRNA-seq數據集組成,這些數據集具有經實驗證實的分化軌跡。選擇這些數據集是為了對早期研究中常用的基準數據集進行排序,并確保廣泛抽樣從哺乳動物受精卵到終分化細胞的發育狀態(表S1)。總的來說,訓練隊列包含了3174個單細胞,跨越49種表型、6個生物系統和3個scRNA-seq平臺(圖S1A和表S1)。為了評估性能,我們使用Spearman相關性來比較每個基于rna的特征,平均表型,與已知的分化狀態(圖1A)。然后,我們對9個訓練數據集的結果求平均值,得出每個特性的最終得分和排名(表S2)。這一系統篩選揭示了許多已知的和未預料到的分化狀態相關關系(圖1B、圖S1B和表S2)。然而,一個特別的特征顯示了顯著的性能:每個細胞可檢測表達的基因數量(基因計數)。這一數據驅動的特征出現在排名前1%的列表中(18,711中有104個),與成熟的干細胞簽名(包括細胞周期和多能性基因)相比顯得更為有利,但也顯示出獨特的生物學特性和更廣泛的適用性。
Development of CytoTRACE
創建CytoTRACE方法
每個細胞表達的基因數量通常在關鍵技術參數方面表現出一致的性能,并且通常與mRNA含量相關(圖S4至S7)。然而,在一些數據集中,如體外向胃泌層分化的hESCs(27),每個細胞中表達的基因數量表現出相當大的表型內變異(圖2A,左)。事實上,當在單細胞水平上進行評估時,我們計算機模擬篩選中的412個預定義基因集的表現優于基因計數(圖S8A和表S2)。由于scRNA-seq設計用于捕獲單細胞基因表達,因此我們認為其表達方式與基因計數相關的基因可能會更好地捕獲分化狀態。實際上,通過簡單地平均與每個數據集(材料和方法)中的基因計數高度相關的基因的表達水平,所得的特定于數據集的基因計數簽名(GCS)成為屏幕中性能最高的指標,我們評估的預定義基因集和計算工具(圖S8,A至D)。因此,我們基于單個細胞間的轉錄協方差,實現了一個兩步的步驟來直接平滑GCS(圖2A,右側,以及材料和方法)。所得方法,我們稱為CytoTRACE [用于使用基因計數和表達進行細胞(Cyto)軌跡重建分析; https://cytotrace.stanford.edu],優于我們評估的GCS和其他基于RNA的功能(圖S8和表S2)。
Performance evaluation across tissues,species, and platforms
跨組織,物種和平臺的性能評估
為了驗證我們的發現,我們從26項研究中收集了33個額外的scRNA-seq數據集(圖S10A,表1,以及材料和方法)。這些數據集代表了不同的發育和分化過程,由141,267個單細胞組成,涵蓋266個表型,9個生物系統,5個物種(包括2個完整生物)和9個scRNA-seq平臺(3個基于液滴和6個基于板的平臺)協議,范圍從平均約10,000個唯一分子標識符到每個細胞約100萬個讀數(圖S5A)。在單細胞水平上進行評估時,CytoTRACE在驗證隊列中的表現優于所有評估的基于RNA的特征(圖2B),與排名第二高的方法相比,其性能顯著提高(中位數rho = 0.72 vs 0.53)。排名第二的方法; P = 0.001)(圖2C;圖S10B;表S2和S4)。在包括骨髓分化在內的許多復雜系統中都觀察到了類似的改善(圖S10C)。此外,88%的數據集中,CytoTRACE結果與分化方向呈正相關。此外,在組織類型,物種,分析的細胞數量,時間序列實驗與發育狀態快照或基于板的與基于液滴的技術之間,未觀察到明顯的性能偏差(圖S12)。進一步評估CytoTRACE,我們用RNA速度相比,動力學模型,該模型可以預測未來細胞狀態,但僅限于scRNA-seq數據和連續的命運的轉換。為了分析RNA速度輸出,其中包括對每個細胞的個性化預測(圖S13),我們確定了跨越當前和未來細胞狀態的所有成對狀態,跨越了已知的發展潛力變化(從小到大的順序,反之亦然)。然后,我們在具有連續發展過程的五個數據集上對已知的分化狀態對每個預測的軌跡進行評分(圖S13B以及材料和方法)。為了進行公平的比較,我們在相同的細胞上對CytoTRACE進行了評估。盡管兩種方法在RNA velocity在某些細胞數據集上的表現相似,但CytoTRACE總體上獲得了更高的準確度(中位數分別為74%和54%;圖S13C)。這可能是由于RNA速度模型假定了較短的mRNA半衰期和發育時間尺度。在評估了單個數據集的性能之后,我們接下來詢問是否可以將CytoTRACE應用于通過批量校正統一的獨立scRNA-seq數據集。為了解決這個問題,我們利用相互最近鄰和高斯核歸一化Scanorama的技術(材料和方法)。然后,我們使用這種方法合并了幾個數據集。無論我們是否整合了在不同scRNA-seq平臺上分析的數據集(圖3A)還是包含發育上不同的細胞類型的數據集(圖S14),CytoTRACE預測的單細胞排序是準確的。
Stem cell-related genes and hierarchies
干細胞相關基因和層次
鑒于CytoTRACE能夠恢復幾乎每個評估的數據集中的分化方向的能力,我們接下來探索了其在沒有先驗知識的情況下識別未成熟表型標記的潛力。通過根據與CytoTRACE的相關性對基因進行排序,可以在86%的基準數據集中輕松地對未成熟細胞的標記進行優先排序(圖S15A)。譜系關系及其相關基因也可以通過專用的分支檢測工具來確定,如Monocle 2;然而,這些方法并不能預測生物過程的起點。例如,當應用于4442個骨髓細胞時,Monocle 2識別出23個可能的“根”,從中計算偽時間值(圖3B,左)。相比之下,在沒有用戶輸入的情況下,細胞描記法很容易識別出正確的根(圖3B,右側,圖S16, A和B)。值得注意的是,其他方法在細胞示蹤導向下也表現出了較強的性能(圖S16G和表S4)。我們接著問,細胞痕跡是否可以從下游祖細胞中區分出循環和長期或靜止的干細胞。由于這些群體已經在骨髓中得到了很好的描述(3),我們在小鼠造血系統中研究了這個問題。雖然循環和靜止造血干細胞(HSC)亞群被正確預測為分化程度較低,但只有增生性造血干細胞明顯高于早期祖細胞(圖3C)。然而,這個結果并不意外,因為靜止細胞代謝活動減少和RNA含量低(1),通過設計一個簡單的方法來可視化推斷RNA含量的函數CytoTRACE(圖3 d,頂部),我們觀察到一個明顯的山谷RNA豐富恰逢Hoxb5表達升高,長期的一個標志或靜止的肝星狀細胞(圖3 d,底部)。由于這些細胞不能僅通過基因計數或RNA含量來識別,因此本分析證實了細胞追蹤的實用性,并展示了一種從scRNA-seq數據中闡明組織特異性干細胞的方法。
Application to neoplastic disease 在腫瘤疾病中的應用
CytoTRACE在多種腫瘤發生、發展及治療的過程中也具有明顯的優勢。
臨床意義
在表征不同的組織、器官和整個生物體的發育過程中單細胞轉錄組方法顯示了強調了對基于RNA的發育潛力的強大決定因素的需求。在對42個發育過程中,近15萬個單細胞的約19,000個特征的分析中,我們發現基因計數,即每個細胞中可檢測到的表達基因的數量,與轉錄的多樣性和分化狀態密切相關。盡管在特定的實驗系統(例如,小鼠肺泡上皮發育,斑馬魚血小板生成和來自hESCs26-28分化的神經元)中已經有所發現(關聯),但是我們首次證實了這種關聯:
(1)基于近19000個RNA特征的方法優于大多數具備干細胞推理工具和預定義的分子特征的工具。(2)通常獨立于物種,平臺和組織類型,并且(3)廣泛適用于整個細胞本體發育。
雖然先前的研究已經證明在特定的發育環境(如胚胎干細胞、腸干細胞和神經干細胞)中,染色質可及性和/或可塑性的整體降低,但是我們的定量研究擴展了這一結果范圍。此外,如之前所示ref65,我們的數據表明,表型相同的單個細胞之間的基因計數的差異并不完全是由于"drou-out"引起,也有可能是由于轉錄組的差異采樣(圖S3)。因此,我們的數據與一個模型是一致的,在這個模型中,較不成熟的細胞保持較松散的染色質,以便對轉錄組進行更廣泛的采樣,而分化程度較高的細胞在特化時通常限制染色質的可及性和轉錄多樣性(圖S6C)66。未來的研究將需要進一步確認該模型的有效性,并評估其在不同組織間隔、發育時間點和表型狀態之間的相關性。
基因數量的鑒定識別是衡量細胞分化狀態的主要指標,這也是促進我們創立CytoTRACE的動力。CytoTRACE是一種計算框架,它利用基因計數,并在單細胞水平上顯著改善細胞分化狀態。與大多數現有的沿襲軌跡分析方法不同,CytoTRACE可以以一種獨立于特定時間尺度或數據中存在連續發育過程的方式預測相對狀態和分化方向,而與特定時間尺度或數據中是否存在持續發展的過程無關。CytoTRACE也與組織類型,物種和scRNA-seq平臺無關。
我們預計這些優勢將是單細胞的重要應用成為可能。例如,通過使用細胞追蹤分析人類乳腺腫瘤的scRNA-seq譜,我們發現了與分化程度較低的管腔祖細胞相關的新候選基因,并確立了GULP1在乳腺腫瘤發生中的新作用。這些數據強調了CytoTRACE在描述腫瘤分化層級和發現新的生物標志物和治療靶點方面的實用性。此外,通過將RNA含量與CytoTRACE結合,我們首次證明,可以使用無監督的計算機方法可以將靜止的成年干細胞與下游祖細胞區分開來。考慮到靜止干細胞的巨大再生潛力,它們在人體組織中的識別在再生醫學和癌癥治療中具有廣泛的意義。
盡管,CytoTRACE可以概括從單一譜系到整個生物的發育順序,但仍然存在一些挑戰。例如,盡管幾乎所有數據集的分化方向都被正確預測,但仍有12%的病例被誤判了。這些數據集也被證明其他方法存在這一問題,這也意味著將來可能具有改進的機會。此外,CytoTRACE當前以等級空間表示,無法在不同數據集之間直接比較。
總之,我們得出結論,每個細胞表達基因的數量是其發育潛力的一個標志。通過利用scRNA-seq數據的這種數據驅動特性,我們開發了一個廣泛適用的框架來解決單細胞分化層次結構方法-CytoTRACE。按照設想,我們的方法將補充現有的scRNA-seq分析策略,對在整個多細胞生命中鑒定復雜組織中的未成熟細胞及其發育軌跡具有重要意義。
(本篇文章開發的在線工具https://cytotrace.stanford.edu/)