【單細(xì)胞】PCMDB:植物細(xì)胞標(biāo)志物數(shù)據(jù)庫(kù)

生物學(xué)中最基本的問題之一就是哪種類型的細(xì)胞以功能協(xié)調(diào)的方式形成不同的組織和器官,單細(xì)胞測(cè)序技術(shù)的出現(xiàn)使得科研人員可以在單細(xì)胞分辨率下研究細(xì)胞表型和細(xì)胞行為。單細(xì)胞測(cè)序技術(shù)最有吸引力的應(yīng)用之一是解碼復(fù)雜的細(xì)胞異質(zhì)性,并創(chuàng)建不同組織/器官中所有細(xì)胞類型的綜合細(xì)胞圖譜。

隨著單細(xì)測(cè)序技術(shù)的日漸成熟,越來越多研究開始選擇并利用單細(xì)胞測(cè)序,使得其成為研究生物學(xué)問題的有利工具。單細(xì)胞測(cè)序最基本,也是最核心的分析為細(xì)胞群體聚類,常見的表現(xiàn)形式是t-SNE或U-MAP聚類,在細(xì)胞聚類的基礎(chǔ)上分析細(xì)胞間基因表達(dá)差異、細(xì)胞分化時(shí)序或者發(fā)現(xiàn)鑒定罕見/新細(xì)胞群體。

因此,根據(jù)細(xì)胞的特征性基因和特征性生物學(xué)功能去定義每一個(gè)細(xì)胞群體,是單細(xì)胞測(cè)序最關(guān)鍵的部分。細(xì)胞屬性定義常用的策略是基于大量實(shí)驗(yàn)或者參考大量文獻(xiàn),挖掘不同細(xì)胞群體的特征性表達(dá)基因,此方法雖然準(zhǔn)確但比較耗費(fèi)時(shí)間,是否有一種數(shù)據(jù)庫(kù),可以讓我們可以查看不同細(xì)胞群體的marker基因,或者輸入輸入一個(gè)基因,數(shù)據(jù)庫(kù)就可以告訴我們?cè)摶驅(qū)儆谀姆N組織、哪種細(xì)胞呢?

發(fā)表在2019年1月NAR上的CellMarker數(shù)據(jù)庫(kù)收錄了158種組織/亞組織的467種人細(xì)胞類型, 81種組織/亞組織的389種鼠細(xì)胞類型。數(shù)據(jù)主要來源于文獻(xiàn)和數(shù)據(jù)庫(kù),包括單細(xì)胞測(cè)序數(shù)據(jù)和生物實(shí)驗(yàn)數(shù)據(jù)。不過這個(gè)數(shù)據(jù)庫(kù)主要面向人類和小鼠。

我們這幾年也開始嘗試在煙草上的單細(xì)胞研究,但是在做的過程中遇到好幾個(gè)問題:原生質(zhì)體的制備細(xì)胞活性有時(shí)候不夠,現(xiàn)有軟件分析多倍體尤其是重復(fù)序列較多的時(shí)候不夠理想,cluster需要不斷調(diào)整(最優(yōu)不太好確定),cluster label的時(shí)候marker基因挖掘很是繁瑣,cluster label現(xiàn)有的工具準(zhǔn)確性還很欠缺等等。其中一個(gè)工作就是,為了解決cluster annotation這一耗時(shí)和繁瑣的工作,我們?nèi)ツ昃烷_始思考,能不能自己建立一個(gè)專門面向植物的marker gene數(shù)據(jù)庫(kù),一是方面自己,同時(shí)也方面研究植物單細(xì)胞的人。也很幸運(yùn),經(jīng)過多輪審稿,前2天最終被NAR accept了(PCMDB:a curated and comprehensive resource of plant cell markers ?【http://www.tobaccodb.org/pcmdb/homePage】?)。

數(shù)據(jù)來源

PCMDB數(shù)據(jù)主要有三類來源:實(shí)驗(yàn)相關(guān)的文獻(xiàn)挖掘,單細(xì)胞研究發(fā)現(xiàn)的可能marker基因,以及一些tissue/cell研究發(fā)現(xiàn)的顯著差異marker基因。

一致性和擴(kuò)展性

為了不同物種和不同研究之間的可比性,以及日后的擴(kuò)展性考慮,我們對(duì)于cell的層級(jí)機(jī)構(gòu)和命名采用Plant Ontology數(shù)據(jù)庫(kù)中的格式。

通過cell和物種名字以及關(guān)鍵詞搜索,初步的獲取了125,490篇文獻(xiàn),其中31,967篇擬南芥的,17,945篇水稻的,16,552篇玉米的,11,593篇大豆的,10,150篇番茄的和37,283篇煙草的。然后各個(gè)專家通過粗略的查看摘要和全文,例如選取有GFP,GUS染色等等實(shí)驗(yàn)驗(yàn)證的,最后獲得擬南芥2883篇,水稻996篇,玉米649篇,大豆336篇,番茄277篇和272篇煙草的。最后再仔細(xì)查看全文以及相應(yīng)物種的官方注釋信息efp表達(dá)等等,或者marker基因的相關(guān)所需信息。(PS:這一步也是我們收集數(shù)據(jù)最耗時(shí)的步驟

對(duì)于單細(xì)胞文獻(xiàn),主要是關(guān)鍵詞挖掘(“single cell,” “single cell sequencing,” “single cell RNA sequencing,” “single cell RNA-seq,” “single cell RNA seq,” “single cell transcriptome,” “single cell transcriptomics,” and “scRNA seq”?等)。最終獲取擬南芥14篇,水稻3篇,玉米3篇和番茄1篇。單細(xì)胞的maker gene主要是來自文章的附表。但是由于cluster結(jié)果不能獲取,所以我們對(duì)于每個(gè)單細(xì)胞數(shù)據(jù)又重新自己進(jìn)行了分析和聚類,來做可視化顯示用。

對(duì)于轉(zhuǎn)錄組數(shù)據(jù)的獲取,沒什么特別的地方,也是關(guān)鍵詞挖掘(genomewide/genome-wide,” “transcriptome,” “l(fā)andscape,” and “global”等)。只不過這個(gè)數(shù)據(jù)和關(guān)鍵詞搜索的結(jié)果noise較高,需要手動(dòng)的進(jìn)行過濾,比如通過title和abstract過濾掉基因家族研究等非tissue/cell level大轉(zhuǎn)錄組的文章。然后提取附表,沒有附表的自己下載原始數(shù)據(jù)進(jìn)行重分析。

最終獲得的marker基因數(shù)據(jù)量信息如下圖所示。

在我們基本快做完的時(shí)候,2021年5月4日,浙江大學(xué)樊龍江教授團(tuán)隊(duì)在Molecular Plant發(fā)表了題為“PlantscRNAdb: A Database for Plant Single-cell RNA Analysis”論文,介紹了他們剛剛建立的植物單細(xì)胞RNA(scRNA)分析數(shù)據(jù)庫(kù)“PlantscRNAdb”。PlantscRNAdb數(shù)據(jù)庫(kù)涵蓋了已開展單細(xì)胞研究的4個(gè)模式植物(擬南芥、水稻、番茄和玉米),提供了多種來源的細(xì)胞類型標(biāo)記基因信息,如早期實(shí)驗(yàn)、RNA-Seq和scRNA-Seq等途徑獲得的標(biāo)記基因。另外,為明確來自單細(xì)胞數(shù)據(jù)標(biāo)記基因的可信度等級(jí),樊龍江團(tuán)隊(duì)重新分析scRNA數(shù)據(jù),并將鑒定出的標(biāo)記基因進(jìn)行了分類:當(dāng)特定細(xì)胞類型中某個(gè)標(biāo)記基因的讀序數(shù)占該基因讀序總數(shù)的80%以上時(shí),即該標(biāo)記基因的表達(dá)主要由這一特定細(xì)胞類型貢獻(xiàn),記為“Marker#1”(即“Marker80”),否則記為“Marker#2”。

整體來說,設(shè)計(jì)理念和我們是類似的,我們也就是多了2個(gè)物種。詳細(xì)來看,我們發(fā)現(xiàn):1)實(shí)驗(yàn)驗(yàn)證的marker gene部分(我們最耗時(shí)的部分),他們的marker基因的數(shù)量和文獻(xiàn)的數(shù)量非常有限,他們文章中描述是通過查看GFP expression等。但是如果僅僅是利用這個(gè)關(guān)鍵詞,我覺得操作起來貌似很困難,邏輯也不太通。所以進(jìn)行overlap分析后發(fā)現(xiàn),他們中的實(shí)驗(yàn)驗(yàn)證的marker基因幾乎95%都是包括在我們的數(shù)據(jù)集中的。從數(shù)量上,我們也是比他們多出很多的;2)有些物種無法比較,因?yàn)楸热缬衩缀痛蠖?,?shù)據(jù)庫(kù)中給出的僅僅是基因名字,沒有官方的ID等信息,從這一點(diǎn)上對(duì)于后續(xù)的使用和擴(kuò)展也是不方面的;3)cell上也沒法進(jìn)行對(duì)比,因?yàn)樗麄儾捎玫腸ell命令比較凌亂,無法進(jìn)行對(duì)照和對(duì)比。但是樊老師團(tuán)隊(duì)工作先于我們發(fā)表,對(duì)于我們還是影響很大的。沒辦法,工作被搶發(fā),也不是第一次碰到了,科研也是競(jìng)爭(zhēng)非常慘淡的,只能發(fā)掘自己工作其它的亮點(diǎn)了,尤其是不再是第一個(gè)的時(shí)候。

因此,雖然樊老師團(tuán)隊(duì)已經(jīng)進(jìn)行了發(fā)表,我們覺得我們的工作還是有很大的優(yōu)勢(shì)的,最大的劣勢(shì)就是不是第一個(gè)這樣的工作了,這個(gè)比較遺憾。

從功能的層面,我們也進(jìn)行了提升,比如多元化的搜索和展示工具。詞云圖,marker基因在幾個(gè)物種中的efp表達(dá)值展示,以及對(duì)于有轉(zhuǎn)錄組和single-cell數(shù)據(jù)的bar圖以及U-MAP和t-SNE展示。

除了常規(guī)的好看好用的搜索和展示工具之外,我們?cè)O(shè)計(jì)之處就是為了方面用戶進(jìn)行cluster annotation的。所以我們就想怎么方面用戶的這一需求。我們測(cè)試了目前常見的cluster annotation工具,最后在線的支持了2個(gè):SCSA和singleR,因?yàn)檫@2個(gè)對(duì)于資源的需求較小,運(yùn)行時(shí)間較短,其它常見的比如:Garnett,SingleCell Net, Cell-ID,scCATCH等。但是即便如此,我覺得這一步的結(jié)果還是提升的空間很大,方法部分還是很欠缺的。

當(dāng)然,我們這個(gè)庫(kù)還是有很多l(xiāng)imitation的,就不詳細(xì)敘述了,歡迎感興趣的多使用,給我們多提意見,多citation我們的work。

本文使用 文章同步助手 同步

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,967評(píng)論 6 531
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 98,273評(píng)論 3 415
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事?!?“怎么了?”我有些...
    開封第一講書人閱讀 175,870評(píng)論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我,道長(zhǎng),這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,742評(píng)論 1 309
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 71,527評(píng)論 6 407
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 55,010評(píng)論 1 322
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,108評(píng)論 3 440
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 42,250評(píng)論 0 288
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 48,769評(píng)論 1 333
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 40,656評(píng)論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 42,853評(píng)論 1 369
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,371評(píng)論 5 358
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 44,103評(píng)論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,472評(píng)論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,717評(píng)論 1 281
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 51,487評(píng)論 3 390
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 47,815評(píng)論 2 372

推薦閱讀更多精彩內(nèi)容