目前單細胞轉錄組領域用的比較多的細胞聚類方法大多是直接從基因表達矩陣推斷,但是對于多樣本合并分析,很多情況下會出現難以解決的批次效應,例如:
- 有些癌癥多樣本的聚類結果大多每個樣本單獨分成一群
- 對于發育樣本,發育前期和后期細胞類型可能存在較大差異,某些樣本特異的細胞群,難以判斷是批次效應產生的還是真正的生物學效應。
2017年發表在Nature Methods雜志上的SCENIC算法,利用單細胞RNA-seq數據,同時進行基因調控網絡重建和細胞狀態鑒定,應用于腫瘤和小鼠大腦單細胞圖譜數據,提出并證明了順式調控網絡分析能夠用于指導轉錄因子和細胞狀態的鑒定。SCENIC通過使用生物學驅動的features自動清除腫瘤樣本特異性等批次效應。
基因調控網絡
我們要深刻了解SCENIC并應用在我們的項目上就要對基因調控網絡(GRN, gene regulatory network)
的背景有一些認識。細胞的轉錄狀態來自潛在的基因調控網絡,GRN由數量有限的轉錄因子(TFs)和輔因子相互調節及調節下游靶基因構成。
單細胞轉錄組分析的最新進展為高分辨率識別轉錄狀態和狀態之間的過渡提供了令人興奮的機會。例如,在分化過程中針對單細胞RNA-seq進行優化的統計和生物信息學方法帶來了新的生物學見解。但是,穩定細胞狀態下的特異性和強健的(robust)GRN是否能夠被確定還尚不清楚
。
鑒于在單細胞水平來做這件事情,這可能確實具有挑戰性。由于轉錄爆發和其他來源的基因表達的隨機變化,基因表達可能會與TF輸入的動力學部分斷開(不相關)。目前已經有一些從單細胞RNA-seq數據推斷共表達網絡的方法發表,但是,這些方法未使用調控序列(regulatory sequence)分析來預測TF與靶基因之間的相互作用。
作者認為,將順式調控序列與單細胞基因表達連接可以克服缺失(基因表達豐度檢測不到)和技術多樣性,從而優化細胞狀態的發現和表征。鑒于此,作者開發了單細胞調控網絡推斷和聚類(SCENIC)來繪制GRN,通過評估每個細胞中GRN的活性,來識別穩定的細胞狀態。
SCENIC workflow
SCENIC workflow 包含3個主要步驟:
- 用GENIE3(隨機森林) 或GRNBoost (Gradient Boosting) 推斷轉錄因子與候選靶基因之間的共表達模塊。每個模塊包含一個轉錄因子及其靶基因,純粹基于共表達。
- 使用RcisTarget分析每個共表達模塊中的基因,以鑒定enriched motifs;僅保留TF motif富集的模塊和targets,每個TF及其潛在的直接targets gene被稱作一個
調節子(regulon)
- 使用AUCell評估每個細胞中每個regulon的活性,AUCell分數用于生成Regulon活性矩陣,通過為每個regulon設置AUC閾值,可以將該矩陣進行二值化(0|1,on|off),這將確定Regulon在哪些細胞中處于“打開”狀態。
使用RcisTarget是SCENIC不同于大多共表達算法的重要區別。由于GENIE3模塊僅基于共表達,因此結果可能包含許多誤報和間接target,為了鑒定推斷的直接結合的靶標基因,使用RcisTarget對每個共表達模塊進行順式調控基序(motif)分析。 僅保留具有正確基因上游調節子且顯著富集TF motif的模塊,并對它們進行修剪以除去缺乏基序支持的間接靶標,這些處理后的模塊才稱為regulon。
AUCell對regulon活性打分
作為SCENIC的一部分,作者開發了AUCell算法來對每個細胞中的每個regulon的活性進行評分。
對于一個給定的regulon,通過比較所有細胞間的AUCell打分值,我們可以識別哪些細胞具有更顯著高的regulon活性。通過卡閾值得到的二元活性矩陣使矩陣維數減少(可理解為只有 0|1,on|off),對于下游分析很有用。 例如,基于regulon二元活性矩陣的聚類,可以根據某個調控子網絡(regulon)的活性來識別細胞群類型和細胞狀態。由于regulon是整體評分的,而不是使用單個基因的表達,因此這種方法對于個別基因的dropouts很有效。
SCENIC性能評估
作者對SCENIC進行了準確性
和魯棒性
評估。
SCENIC準確性評估
作者拿成年小鼠大腦的已知細胞類型的scRNA-seq數據集來測試SCENIC,來評估其準確性。
分析了1,046個初始共表達模塊中的151個Regulons,這些Regulons包含對應TF的顯著富集的motif(占初始TFs的7%)。每個細胞的Regulon活性評分確定了預期的細胞類型(上圖d,e
)以及每種細胞類型的潛在主調控因子的列表(例如下圖中的小膠質細胞網絡),細胞聚類的結果比一些專用的單細胞聚類方法(SC3)要準確。
SCENIC魯棒性評估
作者用以下方式分析了小鼠大腦單細胞RNA-seq圖譜數據:
- 全部的細胞
- 隨機選取其中100個細胞
- 三分之一的測序reads來模擬低深度的數據
SCENIC鑒定出了僅由少量細胞代表的細胞類型(例如,來自小膠質細胞,星形膠質細胞或中間神經元的2至6個細胞;下圖)。此外,預測的TFs與細胞類型的關聯也與先前已知的一致,并且此準確性優于標準分析流程。
為了驗證鑒定小鼠interneurons的Dlx1/2調控網絡,作者分析了人腦的sNuc-Seq(Single nuclei RNA-Seq)數據集。
在人類腦sNuc-Seq數據集上,SCENIC也鑒定出由DLX1/2強烈驅動的interneurons細胞群,該群具有與小鼠相同的motif,并且識別出一組保守的靶標,包括DLX1本身。
接下來,作者將這種跨物種分析擴展到其他細胞類型。 與基于歸一化表達的標準聚類(產生強大的物種驅動聚類)不同,SCENIC分析有效地按細胞類型對細胞進行了分組(下圖)。 這表明網絡活性的評分是可靠的(robust),可以用來克服批處理或測序方法等技術影響。
上圖為:人和小鼠大腦scRNA-seq數據基于GRN活性的聯合聚類,彩色標注的TF為人和小鼠中共同鑒定到的regulons
鑒定腫瘤scRNA-seq數據集中的復雜細胞狀態
由于腫瘤特異性突變和復雜的基因組畸變,癌細胞狀態的鑒定比正常細胞狀態更具挑戰性。一般的標準聚類會通過表達矩陣將細胞按其腫瘤起源分組(各個樣品聚成一類),但SCENIC的結果揭示了不同的圖景。
以下是作者將SCENIC用在少突膠質細胞瘤
(來自6個腫瘤的4,043個細胞)和黑素瘤
(來自14個樣本的1,252個細胞)的scRNA-seq數據集上的結果。
少突膠質細胞瘤
對于少突膠質細胞瘤(oligodendroglioma),在所以腫瘤細胞中鑒定出三種癌細胞狀態(上圖c-e),每種狀態均由預期的TF驅動,包括:
- oligodendrocyte-like stat:SOX10/4/8, OLIG1/2, 和 ASCL1
- astrocyte-like state:ASCL1, SOX9,NFIB
- cycling cells:E2F和FOXM1
此外,作者將擴散映射(Diffusion Maps)應用于二元SCENIC矩陣(上上圖)重建了從stem-like到oligodendrocyte-like 和 astrocyte-like分支的分化軌跡。值得注意的是,與正常oligodendrocyte分化相比,此路徑代表不同的“軌跡”。
黑素瘤
在黑素瘤(melanoma)數據上觀察到了類似的腫瘤效應校正,其中SCENIC識別了跨腫瘤的細胞群。包括一群與少突膠質細胞瘤中類似的TF驅動的周期細胞(例如,E2F1/2/8 和 MYBL2)
Combat和Limma之類的專用批處理效應去除方法,需要預先指定批處理效應的來源;與這些方法相反,SCENIC通過使用生物學驅動的features自動清除腫瘤的效應。
黑色素瘤細胞大致分為兩組:
- MITFhigh state:典型的擴散狀態,以MITF和STAT / IRF為主要regulators;
- MITFlow state:WNT5A, LOXL2 和 ZEB1等已知的侵襲狀態的markers表達上調
SCENIC在MITFlow state的細胞群下鑒定到了兩個新的TFs:
- NFATC2 (114 predicted target genes)
- NFIB (15 predicted target genes)
NFATC2是JNK/MAPK途徑中的轉錄阻遏物,參與黑色素瘤去分化和免疫逃逸;
NFIB與毛囊和黑素細胞干細胞的干細胞行為有關,它在小細胞肺癌轉移過程中起著重要作用。
為了進一步探索NFATC2和NFIB在MITFlow狀態下的潛在作用,作者對25個具有不同腫瘤進展的黑色素瘤標本進行了免疫組織化學分析。
作者發現NFIB和NFATC2在前哨淋巴結(sentinel lymph nodes)中表達最高,這與ZEB1表達共定位,這與ZEB1表達共定位,這表明這些markers的表達與最早的轉移事件之間存在關系。
在A375黑色素瘤細胞系,NFATC2和NFIB的表達很高,當使用siRNA敲除NFATC2時,作者發現NFATC2調節子中的基因被顯著上調。這與先前證實的NFATC2作為阻遏物是一致的。此外參與細胞粘附、細胞外基質和幾個先前發表的代表黑色素瘤浸潤狀態調控的基因也被上調。這表明NFATC2確實可能在疾病進展中起重要作用。作為黑色素瘤regulons的第二次驗證,作者使用ChIP-seq數據確定了MITF和STAT的預測靶標。
SCENIC使用建議
隨著單細胞數據集大小的增加,作者建議兩種補充方法來擴展網絡推斷:
- 取采樣數據集的子集來推斷出GRN,并在AUCell評分步驟中包括所有細胞
- 使用更高效的機器學習和大數據處理解決方案,作者應用GRNBoost 梯度增強來代替random-forest regression,這種實現方式大大減少了推斷GRN所需的時間,并將為在非常大的數據集上進行網絡推斷鋪平道路。
SCENIC是一種普遍適用的分析scRNA-seq數據的方法,利用TF和順式調控序列來指導細胞狀態的發現。文章的結果表明,GRNs是確定細胞狀態的可靠方法,并且scRNA-seq數據非常適合跟蹤基因調控過程,在基因調控過程中特定組合的TFs驅動細胞特異性的轉錄組。