文獻信息:
標題:Large-Scale Metagenome Assembly Reveals Novel Animal-Associated Microbial Genomes, Biosynthetic Gene Clusters, and Other Genetic Diversity
中文:大規模宏基因組組裝揭示了新的動物相關微生物基因組、生物合成基因簇和其他遺傳多樣性
雜志:msystems
時間:2020.12.22
單位:Max Planck Institute for Developmental Biology
摘要:
人類微生物群落的大規模宏基因組組合產生了大量以前未見過的微生物基因組;然而,微生物基因組相對很少來自其他脊椎動物。在這里,我們從代表5類的180個主要野生動物物種的腸道元基因組中生成了5596個元基因組組裝的基因組MAG,此外還有14個現有的動物腸道元基因組數據集。這些MAGs包括1522個物種級基因組箱(SGBs);其中大多數在種、屬或科水平上是新的,大多數在宿主相對環境元基因組中富集。在宿主或環境生物群落中富集的SGBs有許多特征,包括抗菌素抗性基因的數量。我們鑒定了1986種不同的生物合成基因簇;只有23個簇有MIBiG數據庫注釋信息。基于基因的裝配揭示了巨大的基因多樣性,其中很多是宿主或環境特有的。我們的MAG和基因數據集極大地擴展了微生物基因組庫,并提供了微生物適應脊椎動物腸道的廣闊視野。
MIBiG數據庫
一、unmapped reads
大量的unmapped reads,即使在使用多個綜合的宏基因組分析數據庫時也是如此。通過http://timetree.org獲得了較早的寄主種系統發育,分枝按寄主類著色。從內環到外環,映射到樹上的數據包括寄主的飲食、寄主圈養/野生狀態,以及映射到不同寄主特定、非微生物和微生物數據庫的元基因組reads的平均值。注意,圈養/野生狀態有時會因同一物種的個體而有所不同。的數據庫(i)代表每一個公開可用的宿主物種的基因組(“脊椎動物門宿主基因組”),(2)中的所有條目NCBI核苷酸(nt)數據庫與分類識別匹配主機物種(脊椎動物門主機nt),(3)一樣的以前的類別,但是與所有脊椎動物門序列包括(iv) Kraken2“植物”數據庫,(v) Kraken2“真菌”數據庫,(vi) Kraken2“原生動物”數據庫,和(vii)自定義的細菌和古細菌數據庫創建的基因組分類學數據庫,第89版(“GTDB-r89”)。讀取按鍵中顯示的順序(從上到下)迭代地映射到每個數據庫,只在下一次迭代中包含unmapped reads?!拔捶诸悺眗eads不映射到任何數據庫,這些數據庫與到GTDB-r89的讀取映射一起用于下游分析(“微生物+未分類”)。
二、1522個SGBs的系統發育樹
所有1522個SGBs的系統發育。從最內環到最外環,映射到系統發育的數據為GTDB門級分類、放線菌綱級分類、厚壁菌門綱級分類、變形桿菌綱級分類、分類新穎性、宿主腸道或環境元基因組的顯著富集、在我們的多物種腸道元基因組數據集中,哺乳動物和其他動物腸道元基因組數據顯著豐富。系統發育是通過PhyloPhlAn從多個保守的基因座中推斷出來的。系統發育過程中的橙色點表示0.7到1之間的bootstrap值。系統發育的基礎是古菌和細菌的最后一個共同祖先。
三、來源、富集、性狀
A)從MGnify數據庫中選擇的我們的多環境元基因組數據集,每個生物群落的樣本數量的總結。B) SGBs的數量在宿主中相對豐度中顯著富集(log2 fold正變化;“l2fc”)環境元基因組(負l2fc)。圖中顯示的值是生物群系中顯著富集的(藍色)和不顯著的(紅色)MAGs的數量。C)富含宿主和環境的SGBs具有明顯的特征。通過MAG基因含量(Traitar 26)預測的SGBs表型被總結為在宿主或環境元基因組中顯著富集(DESeq2 Adj. P < 0.01)或兩種生物群系(x軸小面“neither”)的SGBs。注意x軸刻度的不同。星號表示表型在特定生物群系的SGBs中更為普遍,而在1000個排列的空白模型中,SGBs之間的生物群系標簽被打亂。所有DESeq2結果見表S3A。
來源分析:?
MGnify: the microbiome analysis resource in 2020
性狀推測:
From Genomes to Phenotypes: Traitar, the Microbial Trait Analyzer
四、系統發生樹和次生代謝簇
MAGs reveal novel secondary metabolite diversity
所有經AntiSMASH鑒定的BGCs≥3的SGBs (n = 233)的系統發育。從最外層環,數據映射到系統(i) GTDB phylum-level分類學分類,(ii)分類新奇,(3)主機或顯著富集環境基因組(iv)的患病率BGC家庭整個multispecies metagenome數據集,和(v) BGC的數量確定的雜志,患病率是最大BGC家庭BGC類型,和只有BGC家庭流行率≥25%。系統發育是經過修剪的版本,如圖2所示。系統發育過程中的橙色點表示0.7到1之間的bootstrap值?!癗PRS”、“PKS”和“RiPPs”分別代表非核糖體肽合成酶、聚酮肽合成酶和核糖體合成和翻譯后修飾肽。
五、基于基因的宏基因組組裝序列cluster分析
Large-scale gene-based metagenome assembly reveals novel diversity
從combined數據集進性基于基因的宏基因組組裝
產生50%序列一致性cluster。A)每個門的基因簇總數。為清楚起見,只顯示cluster≥100的門。每個欄上的標簽列出了cluster的數量(以及占總數的百分比)。B)每門和COG類細菌基因簇數。小面標簽“P”指的是“特征不佳”。C)每類(均屬于廣古菌屬)和COG類的古菌基因簇數。D)每個COG類的病毒基因簇數。E)每個家族標注的簇數。為清楚起見,只顯示cluster≥100的門。每個條旁邊的標簽表示集群的數量。按門分類的每個家族的簇數。CAZy科和門是由多數到最少的cluster數量。為清楚起見,只顯示cluster≥100的CAZy科和門。
參考:Protein-level assembly increases protein sequence recovery from metagenomic samples manyfold. Nat. Methods 2019
六、Biome enrichment of gene clusters from specific phyla
A) COG類B) KEGG通路或C) CAZy家族的基因簇富集。只顯示了兩個生物群系中豐度顯著豐富的分組(DESeq2, adj. P < 1e-5)。只有在至少25%的元基因組中觀察到的基因簇被包括在內。為了清晰起見,只顯示了>7門富集的KEGG通路,只顯示了>1門富集的CAZy科。注意,坐標軸在B)相對于A)和C)中翻轉。