作者:堯小飛
審稿:童蒙
編輯:amethyst
01 背景介紹
目前在NGS的科技服務市場上單細胞轉錄組和三代是最火的兩個方向,也是由于工業技術升級帶來的研究的新方向和新視野(單細胞分篩技術和單分子全長測序)。單細胞技術為我們研究細胞的異質性、細胞發育、腫瘤微環境、精準醫療帶來了巨大的進步,大大促進了研究從混合細胞到單細胞的水平的進步,進一步揭示了生物體的微觀視野的變化規律。單分子全長能夠在不打斷的前提下直接測mRNA或者DNA全長序列,避免了短序列的拼接可能出現的錯誤,發現了大量之前未發現的新的轉錄本。
那么有沒有辦法能夠將兩者的技術結合起來,在單細胞層面研究其全長轉錄本的變化規律?答案是肯定的,早在2018年10月的時候Ishaan等人就在Nature Biotechnology(https://www.nature.com/nbt)上發表了單細胞全長轉錄組的研究方法,作者主要是利用10xGenomics公司的單細胞分篩平臺,得到單個細胞的全長cDNA文庫,然后用Pacbio平臺的建庫技術進行三代建庫,然后測得單個細胞全長轉錄本,通過研究不同亞群細胞的轉錄本特征,發現了亞群特異的轉錄本,這從另外一個視野研究了細胞的異質性。
雖然上面解決了沒有單細胞全長轉錄本的問題,但是Ishaan等人的方法將會具有一個巨大的成本問題,三代和單細胞轉錄組本來成本就有些較高,兩者結合起來,如果還要用三代定量的話,一個樣品初步預計也得快20萬了,因此此方案不太適合推廣。雖然目前三代供應商Pacbio和ONT都有單細胞轉錄組解決方法,但都有面對成本的問題,因此亟需一個低成本的單細胞全長轉錄本或者類似的方案。
Rickard團隊是單細胞領域中鼎鼎大名的團隊,在10xGenomics平臺問世之前,他們團隊開發的smart-seq是單細胞轉錄組領域中絕對的王者。時隔7年,2020年5月6日,Rickard團隊在smart-seq2的基礎上,通過改進開發了smart-seq3技術(Single-cell RNA counting at allele and isoform resolution using Smart-seq3)(https://www.nature.com/articles/s41587-020-0497-0),該技術就是低成本的單細胞全長轉錄組的解決方案,并將該技術發表在Nature Biotechnology 。
02 Smart-seq3建庫基本原理
Smart-seq3既然號稱能夠在轉錄本水平研究單細胞的異質性,那么它究竟是如何達到的呢?我們首先看看其建庫原理。原理圖如下:
從上面的建庫原理圖來看,其建庫方式基本上與smart-seq2一致,最大的不同在于在Tn5酶的tag后面添加了UMI序列(上圖中的紅色x號表示轉錄本的突變位點),其建庫流程如下:
- 通過oligo-dT priming釣取含有polyA尾巴的mRNA。
- 通過TSO(template-switching oligo)進行反轉錄,合成全長cDNA文庫,得到A1序列。TOS序列構成:Tn5 motif 11 and a novel 11-bp tag sequence, followed by an 8-bp UMI sequence and three riboguanosines.
- 通過PCR擴增,將A1序列進行擴增,擴增多條序列。
- tagmentation,通過Tn5-based進行tagmentation,然后構建測序上機文庫。
- 通過UMI序列區分是否是internal reads,挑選5‘帶有UMI序列,構建延伸轉錄本。
在構建轉錄組的過程中,主要是挑選5’UMI序列的雙端序列進行構建;由于5‘都是一樣的,但是3’不一樣(綠色的條塊),因此可以將具有相同的5‘端的序列,不同3’的序列進行合并,延伸轉錄本,得到更長的轉錄本。這種方式得到的轉錄本當然沒有Pacbio等三大方法得到的全長轉錄本長、全,但是相對于普通單細胞轉錄組來說,轉錄本長度大大增加了,提供了單細胞水平的轉錄組的特征。下圖為Smart-seq3文庫長度分布(其文庫長度分布在600-2000bp之間):
03 Smart-seq3與 PacBio 結果比較
既然smart-seq3是為了達到轉錄組水平開發的技術,那就需要比較一下它與真正的三代技術具體有什么差異,到底有什么區別?作者構建了369 individual primary mouse fibroblasts ( F1 offspring from CAST/EiJ and C57/Bl6J strains ) 文庫,然后構建全長轉錄本,并且同時使用smart-seq3構建的cDNA文庫進行Pacbio建庫,建庫用的是SMRTbell Template Prep Kit 1.0-SPv3試劑盒,可以構建500–2,000 bp的文庫, Circular consensus sequencing (CCS) reads were generated from raw reads using the SMRTlink pipeline。
注:Summarizing the numbers of RNA molecules (x axis, log 10 ) reconstructed to different lengths (in base pairs, y axis), showing only molecules additionally assigned to a unique transcript isoform. In total, the 1 million longest reconstructed RNA molecules are shown from one experiment with 369 mouse fibroblasts, with molecules shown in descending order.
上表格展示了Smart-seq3的轉錄本長度和數目分布的數據,從上圖可以看出,smart-seq3可以構建較長的轉錄本,可以從轉錄組水平上研究單細胞的異質性。與PacBio的數據相比, 有54,302 RNA分子在smart-seq3和Pacbio兩種平臺都能檢出;smart-seq3檢出的全長轉錄本數目占Pacbio的 46% 。如下圖a所示。
具體就 Col1a2基因來說,該轉錄本長度為2.3kb, Smart-seq3構建轉錄本長度為1.9 kb,Pacbio的轉錄本長度為2.267kb。
04 Smart-seq3其他方面的優勢
今天在這里主要介紹了Smart-seq3構建全長轉錄本的特點,沒有對其他的優點進行詳細介紹,如果對此感興趣,可以翻一翻原文。其實Smart-seq3在Smart-seq2的基礎上有較大的技術改進和提示,比如另外一個比較重要的方面就是SNP分型的問題,比如做測試的 CAST and C57 alleles,Smart-seq3的結果較Smart-seq2的結果相關性有顯著性的提高,由之前的 0.79和0.68提升到了0.94和0.75。
另外Smart-seq3的基因檢出較Smart-seq2有顯著性的提高,而且編碼蛋白、lncRNA檢出也有較高的提高。
05 總結
總而言之,Smart-seq3與Smart-seq2相比較,無論是在基因分型、轉錄本長度、編碼基因和lncRNA基因的檢出數來說,都具有了較大的提升。特別是Smart-seq3可以構建全長轉錄本,讓研究者可以研究單細胞水平上的轉錄本特性,雖然轉錄本檢出只有Pacbio的46%,但是其優點在于可以在較低的成本情況下,研究單細胞水平的轉錄本特征。
目前單細胞水平的全長轉錄本解決方案較多,比如Pacbio和ONT都推出了相應的解決方案,但是三代+單細胞的方案難以企及的成本,影響了其推廣應用;Smart-seq3在一定程度上的解決了此問題,可以在目前進行推廣應用;當然如果用Smart-seq3+三代的話,其構建的轉錄本將會更完整。
關注“生信阿拉丁”微信公眾號,第一時間查收“新款”生信學習干貨。