生物學(xué)中最基本的問題之一就是哪種類型的細(xì)胞以功能協(xié)調(diào)的方式形成不同的組織和器官,單細(xì)胞測(cè)序技術(shù)的出現(xiàn)使得科研人員可以在單細(xì)胞分辨率下研究細(xì)胞表型和細(xì)胞行為。單細(xì)胞測(cè)序技術(shù)最有吸引力的應(yīng)用之一是解碼復(fù)雜的細(xì)胞異質(zhì)性,并創(chuàng)建不同組織/器官中所有細(xì)胞類型的綜合細(xì)胞圖譜。
隨著單細(xì)測(cè)序技術(shù)的日漸成熟,越來越多研究開始選擇并利用單細(xì)胞測(cè)序,使得其成為研究生物學(xué)問題的有利工具。單細(xì)胞測(cè)序最基本,也是最核心的分析為細(xì)胞群體聚類,常見的表現(xiàn)形式是t-SNE或U-MAP聚類,在細(xì)胞聚類的基礎(chǔ)上分析細(xì)胞間基因表達(dá)差異、細(xì)胞分化時(shí)序或者發(fā)現(xiàn)鑒定罕見/新細(xì)胞群體。
因此,根據(jù)細(xì)胞的特征性基因和特征性生物學(xué)功能去定義每一個(gè)細(xì)胞群體,是單細(xì)胞測(cè)序最關(guān)鍵的部分。細(xì)胞屬性定義常用的策略是基于大量實(shí)驗(yàn)或者參考大量文獻(xiàn),挖掘不同細(xì)胞群體的特征性表達(dá)基因,此方法雖然準(zhǔn)確但比較耗費(fèi)時(shí)間,是否有一種數(shù)據(jù)庫(kù),可以讓我們可以查看不同細(xì)胞群體的marker基因,或者輸入輸入一個(gè)基因,數(shù)據(jù)庫(kù)就可以告訴我們?cè)摶驅(qū)儆谀姆N組織、哪種細(xì)胞呢?
發(fā)表在2019年1月NAR上的CellMarker數(shù)據(jù)庫(kù)收錄了158種組織/亞組織的467種人細(xì)胞類型, 81種組織/亞組織的389種鼠細(xì)胞類型。數(shù)據(jù)主要來源于文獻(xiàn)和數(shù)據(jù)庫(kù),包括單細(xì)胞測(cè)序數(shù)據(jù)和生物實(shí)驗(yàn)數(shù)據(jù)。不過這個(gè)數(shù)據(jù)庫(kù)主要面向人類和小鼠。
我們這幾年也開始嘗試在煙草上的單細(xì)胞研究,但是在做的過程中遇到好幾個(gè)問題:原生質(zhì)體的制備細(xì)胞活性有時(shí)候不夠,現(xiàn)有軟件分析多倍體尤其是重復(fù)序列較多的時(shí)候不夠理想,cluster需要不斷調(diào)整(最優(yōu)不太好確定),cluster label的時(shí)候marker基因挖掘很是繁瑣,cluster label現(xiàn)有的工具準(zhǔn)確性還很欠缺等等。其中一個(gè)工作就是,為了解決cluster annotation這一耗時(shí)和繁瑣的工作,我們?nèi)ツ昃烷_始思考,能不能自己建立一個(gè)專門面向植物的marker gene數(shù)據(jù)庫(kù),一是方面自己,同時(shí)也方面研究植物單細(xì)胞的人。也很幸運(yùn),經(jīng)過多輪審稿,前2天最終被NAR accept了(PCMDB:a curated and comprehensive resource of plant cell markers ?【http://www.tobaccodb.org/pcmdb/homePage】?)。
數(shù)據(jù)來源
PCMDB數(shù)據(jù)主要有三類來源:實(shí)驗(yàn)相關(guān)的文獻(xiàn)挖掘,單細(xì)胞研究發(fā)現(xiàn)的可能marker基因,以及一些tissue/cell研究發(fā)現(xiàn)的顯著差異marker基因。
一致性和擴(kuò)展性
為了不同物種和不同研究之間的可比性,以及日后的擴(kuò)展性考慮,我們對(duì)于cell的層級(jí)機(jī)構(gòu)和命名采用Plant Ontology數(shù)據(jù)庫(kù)中的格式。
通過cell和物種名字以及關(guān)鍵詞搜索,初步的獲取了125,490篇文獻(xiàn),其中31,967篇擬南芥的,17,945篇水稻的,16,552篇玉米的,11,593篇大豆的,10,150篇番茄的和37,283篇煙草的。然后各個(gè)專家通過粗略的查看摘要和全文,例如選取有GFP,GUS染色等等實(shí)驗(yàn)驗(yàn)證的,最后獲得擬南芥2883篇,水稻996篇,玉米649篇,大豆336篇,番茄277篇和272篇煙草的。最后再仔細(xì)查看全文以及相應(yīng)物種的官方注釋信息efp表達(dá)等等,或者marker基因的相關(guān)所需信息。(PS:這一步也是我們收集數(shù)據(jù)最耗時(shí)的步驟)
對(duì)于單細(xì)胞文獻(xiàn),主要是關(guān)鍵詞挖掘(“single cell,” “single cell sequencing,” “single cell RNA sequencing,” “single cell RNA-seq,” “single cell RNA seq,” “single cell transcriptome,” “single cell transcriptomics,” and “scRNA seq”?等)。最終獲取擬南芥14篇,水稻3篇,玉米3篇和番茄1篇。單細(xì)胞的maker gene主要是來自文章的附表。但是由于cluster結(jié)果不能獲取,所以我們對(duì)于每個(gè)單細(xì)胞數(shù)據(jù)又重新自己進(jìn)行了分析和聚類,來做可視化顯示用。
對(duì)于轉(zhuǎn)錄組數(shù)據(jù)的獲取,沒什么特別的地方,也是關(guān)鍵詞挖掘(genomewide/genome-wide,” “transcriptome,” “l(fā)andscape,” and “global”等)。只不過這個(gè)數(shù)據(jù)和關(guān)鍵詞搜索的結(jié)果noise較高,需要手動(dòng)的進(jìn)行過濾,比如通過title和abstract過濾掉基因家族研究等非tissue/cell level大轉(zhuǎn)錄組的文章。然后提取附表,沒有附表的自己下載原始數(shù)據(jù)進(jìn)行重分析。
最終獲得的marker基因數(shù)據(jù)量信息如下圖所示。
在我們基本快做完的時(shí)候,2021年5月4日,浙江大學(xué)樊龍江教授團(tuán)隊(duì)在Molecular Plant發(fā)表了題為“PlantscRNAdb: A Database for Plant Single-cell RNA Analysis”論文,介紹了他們剛剛建立的植物單細(xì)胞RNA(scRNA)分析數(shù)據(jù)庫(kù)“PlantscRNAdb”。PlantscRNAdb數(shù)據(jù)庫(kù)涵蓋了已開展單細(xì)胞研究的4個(gè)模式植物(擬南芥、水稻、番茄和玉米),提供了多種來源的細(xì)胞類型標(biāo)記基因信息,如早期實(shí)驗(yàn)、RNA-Seq和scRNA-Seq等途徑獲得的標(biāo)記基因。另外,為明確來自單細(xì)胞數(shù)據(jù)標(biāo)記基因的可信度等級(jí),樊龍江團(tuán)隊(duì)重新分析scRNA數(shù)據(jù),并將鑒定出的標(biāo)記基因進(jìn)行了分類:當(dāng)特定細(xì)胞類型中某個(gè)標(biāo)記基因的讀序數(shù)占該基因讀序總數(shù)的80%以上時(shí),即該標(biāo)記基因的表達(dá)主要由這一特定細(xì)胞類型貢獻(xiàn),記為“Marker#1”(即“Marker80”),否則記為“Marker#2”。
整體來說,設(shè)計(jì)理念和我們是類似的,我們也就是多了2個(gè)物種。詳細(xì)來看,我們發(fā)現(xiàn):1)實(shí)驗(yàn)驗(yàn)證的marker gene部分(我們最耗時(shí)的部分),他們的marker基因的數(shù)量和文獻(xiàn)的數(shù)量非常有限,他們文章中描述是通過查看GFP expression等。但是如果僅僅是利用這個(gè)關(guān)鍵詞,我覺得操作起來貌似很困難,邏輯也不太通。所以進(jìn)行overlap分析后發(fā)現(xiàn),他們中的實(shí)驗(yàn)驗(yàn)證的marker基因幾乎95%都是包括在我們的數(shù)據(jù)集中的。從數(shù)量上,我們也是比他們多出很多的;2)有些物種無法比較,因?yàn)楸热缬衩缀痛蠖?,?shù)據(jù)庫(kù)中給出的僅僅是基因名字,沒有官方的ID等信息,從這一點(diǎn)上對(duì)于后續(xù)的使用和擴(kuò)展也是不方面的;3)cell上也沒法進(jìn)行對(duì)比,因?yàn)樗麄儾捎玫腸ell命令比較凌亂,無法進(jìn)行對(duì)照和對(duì)比。但是樊老師團(tuán)隊(duì)工作先于我們發(fā)表,對(duì)于我們還是影響很大的。沒辦法,工作被搶發(fā),也不是第一次碰到了,科研也是競(jìng)爭(zhēng)非常慘淡的,只能發(fā)掘自己工作其它的亮點(diǎn)了,尤其是不再是第一個(gè)的時(shí)候。
因此,雖然樊老師團(tuán)隊(duì)已經(jīng)進(jìn)行了發(fā)表,我們覺得我們的工作還是有很大的優(yōu)勢(shì)的,最大的劣勢(shì)就是不是第一個(gè)這樣的工作了,這個(gè)比較遺憾。
從功能的層面,我們也進(jìn)行了提升,比如多元化的搜索和展示工具。詞云圖,marker基因在幾個(gè)物種中的efp表達(dá)值展示,以及對(duì)于有轉(zhuǎn)錄組和single-cell數(shù)據(jù)的bar圖以及U-MAP和t-SNE展示。
除了常規(guī)的好看好用的搜索和展示工具之外,我們?cè)O(shè)計(jì)之處就是為了方面用戶進(jìn)行cluster annotation的。所以我們就想怎么方面用戶的這一需求。我們測(cè)試了目前常見的cluster annotation工具,最后在線的支持了2個(gè):SCSA和singleR,因?yàn)檫@2個(gè)對(duì)于資源的需求較小,運(yùn)行時(shí)間較短,其它常見的比如:Garnett,SingleCell Net, Cell-ID,scCATCH等。但是即便如此,我覺得這一步的結(jié)果還是提升的空間很大,方法部分還是很欠缺的。
當(dāng)然,我們這個(gè)庫(kù)還是有很多l(xiāng)imitation的,就不詳細(xì)敘述了,歡迎感興趣的多使用,給我們多提意見,多citation我們的work。
本文使用 文章同步助手 同步