[圖片上傳失敗...(image-e0cc23-1727284601103)]
Basic Information
- 英文標題: Deciphering cell states and genealogies of human haematopoiesis
- 中文標題:解析人類造血的細胞狀態和譜系
- 發表日期:22 January 2024
- 文章類型:Article
- 所屬期刊:Nature
- 文章作者:Chen Weng | Vijay G. Sankaran
- 文章鏈接:https://www.nature.com/articles/s41586-024-07066-z
Abstract
Para
- 人類血液系統通過有限數量的長壽造血干細胞(HSCs)的分化和大量擴增來維持。
- 這一過程的擾動是多種疾病的基礎,但人類造血的克隆貢獻及其隨年齡的變化仍不完全清楚。
- 盡管最近從模型系統的條形碼研究中獲得了見解,但同時在人類中檢測自然條形碼的細胞狀態和系統發育仍具有挑戰性。
- 在這里,我們介紹了一種改進的單細胞譜系追蹤系統,該系統基于對自然發生的線粒體DNA突變的深度檢測,同時讀取轉錄狀態和染色質可及性。
- 我們使用這個系統來定義HSCs的克隆結構,并繪制克隆的生理狀態和輸出。
- 我們發現HSC克隆的功能異質性在數月內是穩定的,表現為總HSC輸出的差異以及傾向于產生不同成熟細胞類型的偏倚。
- 我們還發現,隨著年齡的增長,HSC克隆的多樣性顯著減少,導致形成具有多個不同克隆擴張的寡克隆結構。
- 因此,我們的研究提供了一個克隆解析和細胞狀態感知的人類造血單細胞分辨率圖譜,展示了人類HSC克隆未被充分認識的功能多樣性,并在更廣泛的范圍內,為在人類健康和疾病中精細研究多種組織的克隆動力學鋪平了道路。
Main
Para
- 造血干細胞(HSCs)維持著終身的血液和免疫細胞生成,具有廣泛的治療應用,并作為理解干細胞生物學的范例。
- 近期研究表明,HSCs在功能上是異質的,具有多樣的克隆行為。
- 為了更深入地理解HSCs的功能多樣性,關鍵在于追蹤造血過程中的克隆和亞克隆關系,以揭示HSC在健康狀態、血液疾病、癌癥以及HSC功能常受擾亂的衰老環境中的貢獻和行為。
Para
- 移植實驗已經證明了造血干細胞(HSCs)的克隆異質性,但其與穩態造血的相關性仍不清楚。
- 在模式生物中,可以通過對造血干細胞進行遺傳標記來研究穩態下的HSC行為,但標記效率和實驗方法的變異性導致了關于HSC克隆如何貢獻于造血的不同觀點。
- 盡管在基因治療試驗中的罕見移植情況下,可以對人類HSC進行遺傳標記,但這種外源性標記不能在人類中常規使用。
Para
- 體細胞獲得的突變作為自然積累的條形碼,可用于人類樣本的回顧性譜系追蹤。
- 最近的研究通過全基因組測序分析由單個造血祖細胞分化而來的細胞克隆,推進了我們對人類造血克隆動態的理解。
- 然而,這些方法無法保留原始細胞狀態,而這種測量對于展示細胞狀態如何影響造血干細胞和其他細胞類型在造血中的行為和貢獻至關重要。
- 原則上,能夠同時提供單細胞豐富細胞狀態讀數并從自然細胞條形碼中獲得詳細譜系信息的技術,將克服這一局限。
- 我們和其他研究者先前證明了線粒體DNA突變作為人類自然細胞條形碼的潛力。
- 然而,現有方法只能檢測到有限的一部分mtDNA突變,阻礙了解析精細尺度亞克隆關系和層級的能力。
Para
- 我們在此介紹一種新方法,單細胞調控多組學(轉錄組學和染色質可及性)與深度線粒體突變分析(ReDeeM),其突變檢測率提高了約十倍。
- 我們應用ReDeeM生成了一個克隆解析的、單細胞轉錄組和可及染色質圖譜,涵蓋了來自12位捐贈者的約15萬個人類造血細胞,這些細胞經過富集以確保適當覆蓋稀有的造血干細胞和祖細胞(HSPC)群體。
- 通過這種方法,我們定義了人類造血的克隆結構,并展示了單個HSC克隆對總體和譜系特異性產出的貢獻。
- 最后,我們評估了這些模式如何隨人類衰老而變化。
Single-cell deep mtDNA mutation recovery
Para
- 許多特征使mtDNA非常適合作為自然進化的條形碼,包括其基因組的緊湊性(約16.7 kb)、高拷貝數(每個細胞數百到數千個)和高自發突變率(估計比核DNA高10到100倍)。
- 因此,已經有許多努力嘗試利用mtDNA突變作為內源性、進化的細胞條形碼,用于譜系追蹤和克隆推斷,這些努力為諸如血液癌癥研究等過程提供了見解。
- 然而,由此產生的系統發育分析的分辨率存在局限性。
- 檢測特定亞克隆中發現的罕見mtDNA突變的能力受到區分測序偽影和真實變異的挑戰的阻礙。
- 為了提高我們調用更完整mtDNA突變集的能力,我們試圖使用單分子共識校正,這可以最小化測序和PCR錯誤的影響(方法)。
- 我們通過修改10X Genomics平臺的基于液滴的單細胞多組學方法,使用完整細胞并進一步優化了最大化mtDNA覆蓋率的協議,同時保留了單細胞RNA測序(scRNA-seq)和單細胞轉座酶可及染色質測序(scATAC-seq)文庫的質量(圖1a,補充圖1和方法)。
- 我們設計了用于基于雜交捕獲的mtDNA特異性探針(補充數據1和方法)。
- 為測序生成了三個獨立的文庫(mtDNA、ATAC和RNA),并帶有匹配的細胞條形碼以便下游整合(圖1a)。
- 細胞條形碼,加上mtDNA片段的起始和結束位置,作為內源性獨特分子標識符(eUMIs),無需人工條形碼(eUMI碰撞率約為3%;方法和擴展數據圖1a)。
- eUMI使得單分子共識錯誤校正成為可能,從而顯著提高了變異調用的靈敏度和準確性,進而促進了低異質性罕見mtDNA突變的檢測(擴展數據圖2和補充方法)。
- 我們基于eUMIs開發了一個開源的計算流程(redeemV和redeemR包),用于單細胞多組學分析中的共識mtDNA突變調用。
Fig. 1: Single-cell deep mtDNA mutation detection with joint multiomics.
[圖片上傳失敗...(image-301658-1727284601103)]
- a, ReDeeM工作流程示意圖。GDN,1%糖基薯蕷皂苷(方法部分)。
- b, 在線粒體DNA富集前后每個細胞的mtDNA拷貝數和UMI組大小的比較。UMI組大小是每個UMI組中原始讀數的數量。Q30,測序質量評分30或以上(準確度≥99.9%)。
- c, 在7,104個細胞中,通過mgatk軟件包在mtDNA富集前和通過UMI共識調用后在mtDNA富集后確定的mtDNA突變總數比較。
- d, 在優化協議下,重鏈(H)和輕鏈(L)的單核苷酸和三核苷酸變化的每個類別的突變特征。突變特征在未過濾(頂部)、通過UMI共識調用得到的4,831個mtDNA突變(中部)和之前報道的bulk mtDNA突變特征(底部,改編自參考文獻35)之間進行比較。
- e, 通過mgatk在mtDNA富集前和通過UMI共識調用在mtDNA富集后每個細胞中確定的mtDNA突變數量的分布。
- f, 在mtDNA富集前(通過mgatk,左側)和后(通過UMI共識調用,右側)的網絡連通性分析。每個點代表一個細胞,每條線連接具有共享突變的細胞。連通性定義為與任何給定細胞共享至少一個mtDNA突變的"鄰居"細胞的數量。Lib.,文庫。
Para
- 作為ReDeeM的初步基準,我們對來自一位健康年輕捐贈者(31歲)的7,104個人類CD34+ HSPCs進行了分析。
- 對靶向mtDNA文庫的深度測序顯著增加了mtDNA片段覆蓋率(平均每個細胞51.7個線粒體基因組拷貝,而未經富集的為14.3個)以及理想的eUMI組大小用于共識校正(平均每個eUMI拷貝4.8個原始讀數,而未經富集的為1.6個;圖1b)。
- 經過嚴格的多步驟過濾,我們在7,104個細胞中鑒定出4,831個高置信度的mtDNA突變,這比之前報道的方法高出十倍以上(圖1c,擴展數據圖3,方法及補充說明)。
- 我們進一步檢查了這4,831個mtDNA突變,并驗證了它們在每個eUMI組中通常由多個讀數支持,具有高共識分數和配對末端鏈之間的一致重疊(擴展數據圖1c,e–g)。
- 值得注意的是,這4,831個mtDNA突變的突變特征與之前報道的mtDNA突變譜非常吻合(圖1d)。
- 因此,每個細胞呈現的mtDNA突變數量顯著增加(中位數為九個,而未經富集的為一個),且這些突變與其他細胞共享,從而將細胞間的連接性提高了一個數量級(圖1e,f)。
- 這種增強的細胞間連接性為精細尺度的亞克隆和系統發育分析提供了前所未有的機會。
- 我們還評估了來自相同細胞的另外兩種模態——scRNA-seq和scATAC-seq的數據質量。
- 這兩種模態均表現出優異的捕獲效率,每個細胞的中位數為5,084個轉錄本和15,590個ATAC片段。
- ATAC插入顯示了預期的尺寸分布,并且在轉錄起始位點高度富集(補充圖1c,e,f)。
- 此外,大多數mtDNA突變未發現顯著的選擇性特征,表明總體上呈中性,使得這些突變可以作為無害的追蹤標記(擴展數據圖4和補充說明)。
Para
- 為了測試 ReDeeM 生成的系統發育重建的準確性,我們使用了 Kras;Trp53 驅動的肺腺癌譜系追蹤小鼠模型來檢測同一單個細胞中核基因組中的工程化 CRISPR 基因編輯的進化條形碼和自然發生的線粒體體細胞突變。
- 在兩個實驗批次中,共采樣了十個腫瘤(第一批次六個,第二批次四個)。
- 由 ReDeeM 確定的細胞間親緣關系和克隆分組在單細胞水平(親緣關系正相關的中位數,或親緣關系一致率,為 0.78)和克隆簇水平(在不同聚類分辨率和樣本中的調整后蘭德指數為 0.2–0.7;擴展數據圖 5,補充圖 2 和 3 及方法部分)上均得到了 CRISPR 基因編輯方法的有力支持。
- 此外,對單菌落全基因組測序譜系追蹤數據的線粒體突變重新分析顯示,克隆和亞克隆一致性,盡管靈敏度有限,與 ReDeeM 增強突變檢測能力相比(擴展數據圖 6 和補充說明)。
- 這些發現與最近一項報告一致,該報告顯示在高頻 mtDNA 突變方面與菌落全基因組測序一致,但在低頻 mtDNA 突變中噪聲更多(補充說明)。
- 綜合來看,這些獨立驗證支持 ReDeeM 能夠穩健地檢測 mtDNA 突變并實現系統發育推斷。
Haematopoietic phylogenies and cell states
Para
- 我們接下來使用ReDeeM研究了人類造血過程。
- 我們從兩位健康的年輕捐贈者(分別為31歲和26歲,分別標記為young-1和young-2)收集了骨髓吸出物,并分離了單核細胞(主要是分化的血細胞和前體細胞)以及CD34+ HSPCs,以確保未分化和更分化細胞的充分代表性。
- 我們在young-1和young-2中分別對11,009個造血細胞(5,415個骨髓單核細胞(BMMCs)和5,594個HSPCs)和15,101個造血細胞(7,147個BMMCs和7,954個HSPCs)進行了三種模態的 profiling(圖2a)。
- 我們確信在young-1的BMMCs和HSPCs中分別識別出3,896和4,803個mtDNA突變,在young-2的BMMCs和HSPCs中分別識別出4,087和5,137個mtDNA突變。
- 基于共享的深層mtDNA突變譜,我們使用鄰接法算法重建了每位捐贈者造血部分的系統發育樹(圖2b,補充圖5a和方法)。
- 所得到的樹得到了多個mtDNA突變的有力支持(補充圖4a),表現出高度的多克隆性,這與基于健康捐贈者造血克隆核基因組測序的最近系統發育分析一致。
Fig. 2: Fine-scale lineage tracing with simultaneous state profiling for human haematopoiesis at steady state.
[圖片上傳失敗...(image-6f741a-1727284601102)]
- a, 人類造血細胞ReDeeM實驗的示意圖。
- b, 基于共享mtDNA突變使用鄰接法構建的供體年輕-1造血細胞的系統發育樹。每個細胞的可共享mtDNA突變數量已標明,中位數為十(本文中用于樹狀圖可視化的為進化樹圖)。
- c, 年輕-1的聯合多組學聚類(與b中相同的細胞)。加權最近鄰均勻流形近似和投影(wnnUMAP)顯示了11,019個單細胞的ATAC和RNA聯合圖譜。HSC,造血干細胞;MPP,多能祖細胞;MKP,巨核細胞祖細胞;CMP,普通髓系祖細胞;GMP,粒細胞-單核細胞祖細胞;MDP,單核細胞-樹突狀細胞祖細胞;MEP,巨核細胞-紅細胞祖細胞;CLP,普通淋巴系祖細胞;LMPP,淋巴-髓系啟動祖細胞;ProB,B細胞祖細胞;EryP,紅細胞前體;Mono,單核細胞;cDC,常規樹突狀細胞;pDC,漿細胞樣樹突狀細胞;NK,自然殺傷細胞。
- d, 分析造血干細胞(HSCs)向髓系和巨核-紅細胞系分化軌跡中的染色質可及性(偽批量ATAC,左)、mRNA表達(中)和SPI1和GATA1轉錄因子(TFs)的DNA結合活性(右)?;贘ASPAR2020人類轉錄因子數據庫,使用ChromVar計算轉錄因子DNA結合基序頻率的偏差。
- e, 測量不同細胞類型中的mtDNA突變負擔;n = 11,019個細胞。箱線圖顯示了25th-75th百分位數的數據,須延伸至1.5×四分位距(IQR)內的最小和最大值。P值來自雙側Wilcoxon秩和檢驗。
- f, 系統發育樹和多組學基礎細胞類型之間的綜合分析。突出了細胞類型限制的局部類群示例(類群i-viii)。富集P值通過單側二項式檢驗后進行q值校正計算。
- g, 基于譜系信息mtDNA突變(11,009個細胞對631個變異)的細胞類型起源分析。顏色強度表示每個目標細胞類型(x軸)在查詢細胞類型的mtDNA突變基礎k最近鄰(KNN)中的比例(y軸)。
Para
- 接下來,我們使用每個葉(單個細胞)在我們的系統發育樹中可用的轉錄組和表觀基因組信息來評估細胞狀態。
- 我們使用加權最近鄰(WNN)指標整合這兩種模態,并識別出17種主要的造血細胞類型/簇(圖2c和補充數據2)。
- 單個細胞的scRNA-seq和scATAC-seq譜圖的配對也使我們能夠探索造血細胞命運決策中的調控回路。
- 例如,在其他髓系譜系和巨核細胞/紅細胞譜系之間的分支路徑上,我們觀察到主要的轉錄調控因子SPI1和GATA1是如何通過與特定的調控元件結合而被激活,并隨后促進分化軌跡,其特征是其中一個或另一個轉錄因子基序的可及性增加(圖2d)。
- 我們發現GATA1基序在HSC分化過程中開始激活得更早,即使在低GATA1表達水平下,與SPI1相比,這與之前的研究一致39,40。
- 有趣的是,HSCs的mtDNA突變負擔顯著低于更成熟的祖細胞和分化細胞,這表明在相對靜止的HSCs分化過程中,細胞快速分裂時會發生額外的亞克隆mtDNA突變41,如以下討論所示,這為探索不同細胞類型之間的系統發育關系提供了機會(圖2e和補充圖5c)。
- 總的來說,我們的數據提供了一個克隆解析的、細胞狀態感知的人類造血細胞圖譜,分辨率達到單細胞水平,使得對這一復雜分化過程背后的調控機制進行前所未有的推斷成為可能。
Haematopoietic cell-type origins
Para
- 細胞狀態感知的人類造血系統發育樹使我們能夠探索不同血液和免疫細胞類型的發育起源和相互關系,其中一些細胞類型尚未完全了解。
- 將多組學數據衍生的細胞類型注釋映射到發育樹上顯示,由于多克隆起源,不同造血細胞群體在樹上的分布廣泛。
- 然而,有趣的是,我們還識別了許多精細的亞克隆結構,或稱進化枝(即,從共同祖先衍生出的完整細胞集,從而涵蓋發育樹的一個分支),其中在兩名供體中分別有1,650和2,079個進化枝顯著富集于特定細胞類型(假發現率(FDR) < 0.2,倍數變化 > 2)(圖2f,補充圖4b和5d及補充數據3)。
- 接下來,我們使用基于mtDNA突變的最近鄰分析定量評估細胞類型的起源。
- 如預期的那樣,大多數細胞類型(13種中的11種)的最近克隆鄰居是相同的細胞類型。
- 值得注意的是,這一分析在很大程度上重建了先前在傳統造血研究中廣泛描述和表征的血液細胞類型起源的層次結構(圖2g和補充圖5e)。
- 然而,我們的分析也揭示了一些意想不到的見解。
- 例如,明確界定產生傳統樹突狀細胞和漿細胞樣樹突狀細胞(分別為cDCs和pDCs)的祖細胞群體一直具有挑戰性。
- 在我們的數據中,cDCs和pDCs顯示出較少受限制的克隆起源,并且兩者似乎都有更多的髓系起源,這與最近在小鼠中的譜系追蹤研究相呼應。
- 總的來說,我們的方法解析了天然穩態人類造血的克隆和亞克隆關系,并將這些關系與豐富的細胞狀態讀數聯系起來。
HSC cell-state heterogeneity
Para
- 在系統發育樹中關系更密切的克隆與造血細胞狀態之間的耦合可能由以下兩個因素之一引起:(1)在表現出譜系偏好的HSC克隆中出現的mtDNA突變;(2)在分化過程中后期獲得的mtDNA突變。
- 前一種可能性——或者HSC具有克隆和功能異質性的程度——具有重要的臨床意義,但在原生人類造血方面仍不清楚。
- 我們所取得的技術進步為解決這些不同的可能性提供了獨特的機會,特別是剖析HSC異質性。
- 為了提高HSC的恢復率,我們首先通過深度分析表型CD34+CD45RA?CD90+群體來富集HSC。
- 然后,我們篩選出特異性表達HSC標記基因HLF和CRHBP的細胞(方法,圖3a和擴展數據圖7a–e)。
- 我們在young-1和young-2中分別鑒定出5,393和3,292個HSC,這些HSC通過檢查其他已知特異性富集在HSC中的標記基因的表達而獨立驗證,包括MECOM、MLLT3和RBPMS(圖3b和方法)。
- 重要的是,為了檢查HSC分子和行為異質性的穩定性——從而建立我們的系統發育樹與HSC克隆行為之間的確切聯系——我們從同一供體(young-1)在4個月的過程中兩次采樣HSC(圖3a)。
- 我們進一步基于WNN空間使用結合轉錄組和可訪問染色質狀態對HSC進行無監督聚類,并在該供體中鑒定出14個亞群(圖3c)。
- 值得注意的是,所有亞群在ATAC和RNA空間中均一致鑒定,并在兩個時間點均可重復檢測到(圖3c和擴展數據圖7f)。
- 在HSC亞群中,我們鑒定了差異表達基因和差異轉錄因子可訪問性(擴展數據圖7g和補充圖6a)。
- 例如,盡管在所有HSC中總體高表達,但一些關鍵HSC基因,包括MECOM、FLT3、CDK6、JUN和FOS,在不同亞群中差異表達(圖3d和補充圖6b)。
- 這些基因已知在HSC功能方面很重要,包括HSC維持、自我更新、分化和炎癥反應,這些因素的失調可能導致白血病的發生。
- 我們還發現亞群之間存在幾種差異通路,在基因表達和轉錄因子活性變化水平上均有證據,如BMP–SMAD信號通路改變和AP1信號通路變化(擴展數據圖7g和補充圖6a),這與之前在小鼠中的研究相似,提示這些通路在HSC異質性中起關鍵作用。
- 值得注意的是,我們發現主要的HSC亞群在young-2中可重復,但我們也在每個個體中鑒定出特定的稀有亞群(擴展數據圖7h–n和補充圖6c)。
- 總體而言,我們的數據提供了一個多組學資源,使我們能夠解析人類HSC異質性。
Fig. 3: HSC clonal architecture and clonal-dependent cell-state biases.
[圖片上傳失敗...(image-ff5db-1727284601102)]
- a, 實驗設計的示意圖。骨髓樣本從同一個人在相隔4個月的兩個不同時間點獲取,并通過ReDeeM處理。HSCs通過熒光激活細胞分選(FACS)富集,并通過單細胞基因表達(expr.)標記進一步定義。
- b, HSC分類的驗證。展示了多個獨立HSC標記的基因表達;n = 34,017個細胞。箱線圖顯示了25th–75th百分位的數據,須延伸至1.5 × IQR內的最小值和最大值。***P < 2.2 × 10?16,來自單側Wilcoxon秩和檢驗。
- c, 基于單細胞RNA和ATAC分析單獨,以及基于聯合WNN空間的HSC亞群。
- d, HSC亞群間差異表達基因的示例。
- e, 使用共享mtDNA突變(供體年輕-1)從兩個時間點采樣的HSC的系統發育樹。
- f, 使用超幾何檢驗分析HSC克隆群與HSC狀態亞群之間的重疊。顏色強度表示組合富集FDR(補充數據4)。
- g, 比較兩個時間點HSC克隆-狀態富集(enrich.)(如f所示);比較富集倍數變化。顏色強度表示組合富集FDR。
HSC clonal structure
Para
- 接下來,基于5,393個分子定義的HSCs中共享的mtDNA突變,我們重建了一棵系統發育樹,展示了HSCs之間的克隆關系。
- 為了研究HSC克隆特征,我們通過將樹結構劃分為小分支來定義HSC克隆群,這些小分支是最密切相關HSC克隆的組(見圖3e和方法部分)。
- 為了清晰起見,此處使用的‘HSC克隆’和‘克隆群’術語指的是在發育過程中共享起源的一組HSCs,而不是指單個HSCs。
- 結果樹顯示HSCs具有平衡的多克隆結構。
- 總的來說,我們從5,393個單HSCs中定義了78個HSC克隆群。
- 值得注意的是,大多數HSC克隆群可以在同一捐贈者的連續采樣中重新觀察到,這表明它們代表了至少在體內數月時間內對造血有貢獻的HSCs,這是一個時間尺度,大多數非HSC細胞類型被認為至少已經更換了一次。
Para
- 目前尚不清楚不同的造血干細胞(HSCs)是否具有可遺傳的細胞狀態,或者HSC狀態的變化是否代表隨機的、短暫波動。
- 我們的數據將克隆身份和細胞狀態聯系起來,來自同一細胞,因此我們可以直接測量78個HSC克隆群在14個基于細胞狀態的多組學HSC亞群中的分布。
- 我們發現48個(約三分之二)HSC克隆群在不同HSC狀態中隨機分布,而30個(約三分之一)在一種或少數特定狀態亞群中顯著富集(圖3f)。
- 有趣的是,我們發現HSC克隆到亞群的富集在相同供體中跨越兩個時間點(相隔4個月)顯著相關(圖3g),這表明HSC偏好在人類中至少可以持續數月。
- 我們還檢查了年輕-2中的HSC克隆結構。
- 與年輕-1的分析一致,我們也觀察到多克隆結構,既有隨機HSC變異,也有其他克隆,顯示出與年輕-1中觀察到的相似比例的細胞狀態偏好(擴展數據圖7o,p)。
- 總之,我們調查了HSC克隆及其分子狀態,這表明大約三分之一的HSC克隆具有部分可遺傳且相對穩定的狀態偏好。
HSC clonal output and cell-type biases
Para
- 傳統上,造血干細胞(HSCs)的功能輸出只能在移植環境中或通過模型系統中的條形碼技術進行測量。
- 鑒于我們在檢測深層次線粒體DNA突變作為自然細胞條形碼方面的進展,我們推測現在可以在原生造血過程中追蹤人類HSC的輸出。
- 為了避免特定線粒體DNA突變的脫落或檢測失敗帶來的混淆,我們開發了基于網絡傳播策略的計算方法——單細胞變異富集網絡傳播基因組學追蹤數據(SCAVENGE–L),該方法最大限度地利用信息豐富的線粒體DNA突變來識別不同HSC克隆的后代(圖4a和方法)。
- 通過SCAVENGE–L分析,我們發現大多數細胞可以以極高的分配概率映射到一個獨特的HSC克隆組(補充圖7a)。
- 為了進一步驗證該方法的準確性,我們將基于網絡傳播的分配與最初識別的HSC克隆組(真實情況)進行了比較。
- 如預期的那樣,分配的準確性對于那些具有更高最大分配概率的細胞有所提高。
- 然后,我們過濾了最大概率為0.7的細胞,通過這種方法,超過80%的HSC可以被正確分配到相應的HSC克隆組(補充圖7b和方法)。
- 總體而言,在兩個時間點對兩位捐贈者的基準分析表明,SCAVENGE–L具有強大的穩健性和一致性(補充圖7b–e)。
Fig. 4: HSC clonal output activity and lineage biases.
[圖片上傳失敗...(image-12a69d-1727284601102)]
- a, 使用基于mtDNA突變的細胞網絡通過網絡傳播策略將后代細胞分配到HSC克隆群示意圖。
- b, 年輕-1中兩個采樣時間點的HSC克隆輸出活性(每個HSC克隆的后代細胞數量)總結。后代數量已標準化為HSC克隆大小。
- c, 兩個時間點(時間點1,T1;時間點2,T2)之間的克隆輸出活性相關性分析。
- d, 年輕-1和年輕-2中,在兩個時間點,每個HSC克隆的輸出貢獻,按對總后代群體的貢獻從高到低排序。虛線表示所有克隆的平等貢獻預期。
- e, 對于每個HSC克隆群,顯示分化為四種主要譜系的后代百分比:巨核細胞(MK)、淋巴樣細胞(Lym)、紅細胞(Ery)和髓樣細胞(Mye)。在兩個時間點均一致富集的克隆被歸類為偏倚克隆??寺∽V系偏倚的顯著性指示(FDR *0.05–0.20, **0.01–0.05, ***<0.01;補充數據4和方法)。頂部,指示每個克隆在兩個時間點的克隆譜系偏倚的倍數變化。
- f, HSC克隆輸出活性與克隆譜系偏倚之間的相關性。誤差帶為線性模型預測的95%置信區間。P值來自Wald檢驗。
Para
- 造血干細胞(HSC)輸出變異和譜系偏倚存在的程度是有爭議的,大多數先前的研究依賴于在小鼠模型中的標記和/或移植實驗。
- 在供體年輕-1中,22,349個(或59%)已定向和分化的細胞被確信地分配到HSC克隆群中,其中最高分配概率大于0.7(通過SCAVENGE–L)。
- 特定克隆向分化血細胞和免疫細胞的輸出可以直接測量,并在對不同HSC克隆群進行克隆大小標準化后進行比較(圖4b和方法)。
- 我們發現所有HSC克隆群都在積極產生后代,但克隆之間的輸出程度存在一些變異,最高和最低克隆十分位的輸出差異為4.9倍(圖4b)。
- 有趣的是,這種可變輸出活性在跨越4個月的兩個時間點上的克隆水平上表現出高度一致性(Pearson相關系數=0.69)(圖4b,c)。
- 如預期的那樣,在年輕-2中,HSC克隆輸出活性也表現出類似的變異模式(最高和最低克隆十分位之間的變化為4.5倍;補充圖7f)。
- 我們進一步量化了HSC克隆在造血中的總體貢獻,發現基于輸出的前50%HSC克隆在兩個時間點和兩個供體中產生了約60%的成熟造血細胞(圖4d)。
- 這些結果表明,大多數HSC克隆積極參與人類穩態造血,但觀察到HSC之間存在持續數月的某些變異。
Para
- HSC在天然人類造血過程中表現出譜系偏好的程度尚不清楚。
- 我們的數據允許我們調查分配到不同HSC克隆群體的子代細胞狀態。
- 為了清晰起見,本文中使用的‘譜系’或‘譜系偏好’術語指的是基于細胞狀態的分化軌跡。
- 我們通過基于多組學數據分組細胞狀態定義了四個主要譜系:髓系(單核細胞、GMP、MDP、cDC)、淋巴系(CD4、CD8、自然殺傷細胞(NK)、B細胞、ProB、CLP)、紅細胞系(MEP、EryP)和巨核細胞系(MK)(圖2c)。
- 然后我們計算了每個HSC克隆群體的譜系貢獻。
- 與使用所有細胞預期的譜系分布相比,我們識別出47個(60%)HSC克隆群體在兩個時間點上表現出一致的譜系偏好,有31個(40%)HSC克隆未顯示出可檢測的譜系偏好(圖4e,補充數據4和方法)。
- 值得注意的是,偏倚克隆的譜系偏好顯示出中等效應大?。ㄖ形粩禐?.55倍變化),但在跨越數月的兩個時間點上高度可重復(Pearson相關系數為0.59)。
- 一致地,我們也觀察到在年輕-2中有69%的譜系偏倚HSC克?。ㄑa充圖7g)。
- 當我們探索克隆輸出與譜系偏好之間的關系時,發現淋巴系偏好與HSC克隆輸出負相關;紅細胞系和髓系與HSC克隆輸出正相關,而MK譜系未顯示出顯著差異(圖4f)。
- 這在兩個供體中是一致的,并與之前使用正交方法的研究結果一致(補充圖7h)。
- 最后,我們開發了一種‘克隆行為軌跡分析’方法,以調查不同克隆功能在輸出活性和分化偏好方面的潛在分子驅動因素(擴展數據圖8a)。
- 我們識別出多個可訪問區域,但不是基因表達變化,這些區域與一個或多個行為軌跡顯著相關(2,931個差異峰,FDR < 0.01;擴展數據圖8b和補充數據5)。
- 我們通過基因集富集和基序分析調查了與不同偏好相關的峰組附近的基因(擴展數據圖8c-e)。
- 有趣的是,這些附近基因的功能讓人聯想到所檢查的相應輸出和譜系偏好,這表明染色質可訪問性變化可能預示HSC的命運決定,呼應了之前的研究報告。
- 綜上所述,這些結果表明HSC在天然人類造血過程中具有中等但相對穩定的譜系偏好。
Oligoclonal expansions in ageing
Para
- 近期研究表明,隨著年齡增長,造血干細胞(HSCs)會出現耗竭,同時特定攜帶疾病驅動突變的克隆會擴張,這增加了患白血病和其他疾病的風險,這種現象被稱為克隆造血。
- 然而,這類克隆擴張的檢測主要依賴于通過 bulk-測序方法監測特定驅動突變,因此單細胞分辨率下可觀察到的克隆復雜程度尚未被研究。
- 為探討這一問題,我們使用 ReDeeM 對來自兩位年長捐贈者的 9,519 和 14,715 個造血細胞進行了分析,這兩位捐贈者分別為 76 歲和 78 歲,我們分別稱之為 aged-1 和 aged-2。
- 我們在這些年長捐贈者中檢測到顯著增加的線粒體 DNA 突變負擔,涉及所有已識別的細胞類型,這與核基因組中的體細胞突變報告一致。
- 基于共享的線粒體 DNA 突變,我們為每位年長捐贈者重建了系統發育樹。
- 值得注意的是,與年輕捐贈者相比,所得樹狀圖顯示出明顯更多的寡克隆結構。
- 通過簡化系統發育樹結構的方法,我們分別識別了 aged-1 和 aged-2 的 48 和 84 個克隆群。
- 年長捐贈者擁有多個主導造血結構的大型克隆,克隆多樣性(Shannon 多樣性指數)低于年輕捐贈者,這一點通過分析五名額外年輕捐贈者和三名額外年長捐贈者的混合樣本進一步得到證實。
- 為研究亞克隆動態,我們采用統計測試以量化相對于中性進化模型預期下的克隆大小。
- 我們在年長捐贈者中識別出多個擴張克?。ㄔ谡x擇下大于 500 個細胞且 P < 0.01),這些在年輕捐贈者中幾乎完全缺失。
- 擴張克隆中的細胞比例在 aged-1 中為 34.4%,aged-2 中為 46.3%,而在年輕捐贈者中僅為 3.4% 和 8.7%。
- 接下來,我們推斷出每個單細胞的‘健康分數’,定義為相對于剩余群體的生長優勢。
- 這些分析顯示同一捐贈者內單細胞健康存在變異。如預期,擴張克隆中的細胞顯示出高健康分數。
Fig. 5: Clonal structure alterations in human haematopoiesis with ageing.
[圖片上傳失敗...(image-a56f16-1727284601101)]
- a, 比較 mtDNA 突變負擔在年輕和老年供體之間不同細胞類型的情況。年輕-1、年輕-2、老年-1 和老年-2 的細胞數量分別為 11,009、15,101、9,519 和 14,715 個(yo,歲)。箱線圖顯示了第 25 至 75 百分位的數據,須線延伸至 1.5× IQR 內的最小值和最大值。***P < 2.2 × 10?16,來自單側 Wilcoxon 秩和檢驗。
- b,c, 來自年輕(b)和老年供體(c)的系統發育樹??寺∪涸谕猸h上用不同顏色表示。
- d, 兩個年輕和兩個老年供體中每個克隆對總群體的貢獻。
- e, 年輕和老年供體之間克隆組成的 Shannon 多樣性指數。
- f, 在老年-1 的系統發育樹上映射單細胞適應性評分和具有 LOY 的細胞。外環顯示了原始和平滑的 LOY 細胞分布。顯示了 LOY 富集的 P 值(以及使用 q 值的 FDR)(單側二項式檢驗)。
- g, 每個擴展譜系中細胞類型的貢獻?;疑珔^域表示預期的平衡細胞類型分布。
Para
- 造血嵌合性Y染色體丟失(mLOY)在男性衰老過程中常見,并與多種疾病相關。
- 然而,mLOY的原因和后果尚不清楚。
- 基于單細胞ATAC技術在Y染色體上的片段,我們開發了用于估算單細胞中LOY的定量指標(方法部分)。
- 我們在aged-1和aged-2中分別鑒定出119個和11個具有LOY的細胞,但在年輕男性供體中未發現(擴展數據圖9i,j)。
- 對于aged-1,我們在系統發育樹上繪制了有或無LOY細胞的身份,發現LOY細胞出現在多個分支中,但在擴展的A族中顯著富集,該族顯示出最高的適應性評分。
- 有趣的是,我們還鑒定出其他擴展,如擴展的B族沒有LOY富集,但可能由不同的驅動因素引起(圖5f)。
- 這些結果表明,在aged-1中,LOY事件發生率低,但可能獨立發生多次,并在適應性評分較高的細胞中富集,這與之前的報道一致。
- 這一分析的重要注意事項是,使用單細胞ATAC片段檢測LOY受限于Y染色體上可訪問讀數的稀缺性。
Para
- 最后,我們調查了每個擴展譜系內的細胞類型組成,這是通過我們方法提供的聯合多組學讀數實現的。
- 我們發現,不同的擴展譜系在兩位老年供體中都顯示出偏斜的細胞類型分布。
- 這一發現通過分析額外的老年供體進一步得到支持(圖5g和擴展數據圖9e和10h–j)。
- 有趣的是,老年供體1中擴展的譜系A顯示出LOY富集,偏向淋巴系,這與我們最近使用群體數據進行的分析相呼應,顯示LOY與個體淋巴細胞計數之間存在強相關性。
- 此外,在一位已知在群體中檢測到克隆性造血突變的額外老年供體(老年-5)(ASXL1-Q373X)中,所識別的擴展譜系中紅細胞減少,這讓人聯想到Asxl1突變小鼠模型中觀察到的表型(擴展數據圖10j)。
- 未來進一步結合單細胞基因分型與ReDeeM將有助于明確確定帶有驅動突變的克隆,并定義觀察到的擴展譜系的潛在分子機制。
- 總的來說,這些結果重塑了我們對老年造血的認識,并且與通常認為的隨年齡相關的克隆性造血檢測到單一克隆擴展不同,我們檢測到了一個更復雜且普遍的寡克隆結構。
Discussion
Para
- 人類造血系統的研究已成為我們理解干細胞生物學的范例。
- 盡管經過數十年的努力,關于人類造血系統的核心問題仍未解決。
- 例如,‘克隆繼替’(僅有少數干細胞參與)和‘克隆穩定性’(許多干細胞同時參與)這兩種模型究竟哪一種最能描述自然造血過程尚不清楚,同樣,未受干擾的造血干細胞群體在分化潛能或譜系偏倚方面的限制程度也不明確。
- 各種基于移植的檢測方法以及基于細胞標記的技術,雖然提供了重要見解,但各自存在局限性,特別是在探索這些問題在自然人類環境中的情況時尤為明顯。
Para
- 我們在此介紹了一種高分辨率、無需工程化、大規模并行、單細胞譜系追蹤方法,可直接應用于人類樣本。
- 利用這種方法,我們提供了一個克隆解析和細胞狀態感知的單細胞圖譜,用于研究人類原生造血過程,并利用該圖譜探討了人體內穩態下造血干細胞(HSCs)的克隆結構和異質性行為。
- 我們顯示,在年輕個體中,大多數HSC克隆在穩態下積極參與造血,但克隆特異性的輸出活性存在一些差異(約五倍),并且這些差異在至少幾個月的時間尺度上穩定維持。
- 我們還證明,存在固有的克隆特異性譜系偏倚,這些偏倚與克隆輸出差異一樣,在幅度上受限,但在時間上持續。
- 最后,我們通過聯合轉錄組和表觀基因組狀態識別了HSC亞群,發現一個顯著的HSC克隆群體在某些由基因表達和表觀基因組狀態定義的HSC亞群中富集。
- 有趣的是,我們發現人類原生環境中HSC克隆特異性的細胞狀態偏好也是一個相對穩定的固有特征,這與使用基于標記方法在小鼠中的某些發現相呼應。
- 值得注意的是,我們描述的是具有共同祖先的HSC克隆群體的行為和細胞狀態偏倚,而不是單個HSC的偏倚。
- 由于骨髓吸液中細胞采樣有限,克隆群體中的HSC可能不是最直接的同胞。
- 因此,通過增加細胞數量、位置和時間點的進一步改進采樣,將提供對系統發育關系的更清晰視圖,這對于識別最近衍生的克隆群體,甚至單個人類HSC所觀察到的細胞狀態和行為偏倚的機制至關重要。
Para
- 因此,結合之前的研究,我們的工作揭示了一幅正常造血的圖景,其中在年輕個體中,造血干細胞對造血的貢獻具有豐富且平衡的多克隆結構,每個亞克隆在細胞狀態、輸出和譜系偏倚方面具有獨特但有限的偏好。
- 相比之下,在老年個體中,這種克隆多樣性顯著下降。
- 克隆擴張,或克隆多樣性的改變,涉及各種癌癥和癌前病變。
- 然而,克隆多樣性減少的原因和后果在很大程度上是未知的,并且在人類中難以研究。
- 我們的結果表明,克隆擴張可能源于多個起源并具有不同的譜系偏倚。
- 我們能夠在單細胞分辨率下捕獲和表征衰老過程中的克隆擴張,這應有助于深入探索這些擴張克隆的分子本質。
Para
- 更廣泛地說,體細胞突變越來越多地被發現對多種疾病過程有貢獻,而不僅僅是造血和癌癥。
- 與單克隆或單細胞全基因組測序相比,ReDeeM通過共識錯誤校正顯著提高了mtDNA突變的可檢測性,并提供了全面的細胞狀態信息。
- 它具有高可擴展性,并顯著降低了每個細胞的成本,促進了在人類健康和疾病中廣泛探索亞克隆變化的可能。
- 未來的改進旨在通過ReDeeM提高系統發育推斷,考慮到線粒體基因組的獨特動態和其他生物學特征,將能夠改善譜系樹重建,為深入理解克隆鑲嵌如何對多種人類疾病做出貢獻鋪平道路。
Methods
Bone marrow donors
骨髓捐獻者
Para
- 來自健康年輕捐贈者的新鮮骨髓樣本在知情同意的情況下被抽取,該樣本庫協議已獲得波士頓兒童醫院機構審查委員會的批準。
- 來自老年捐贈者的胸骨骨髓在心臟手術中進行胸骨切開術后收集,該樣本庫協議已獲得馬薩諸塞州總醫院布里格姆機構審查委員會的批準,并在知情同意的情況下進行。
- 每個捐贈者的信息顯示在補充表1中。
Primary BMMC extraction
初級BMMC提取
Para
- 從健康年輕和老年供體中收集骨髓。
- 骨髓吸取物用等體積的洗滌緩沖液(PBS,2%胎牛血清(FBS),1 mM EDTA)稀釋。
- 將Ficoll介質加入SepMate管(STEMCELL Technologies,目錄號85460)中,然后將稀釋的骨髓樣本層疊在其上,隨后在室溫下以1,200g離心20分鐘。
- 含有單核細胞的頂層被轉移到一個新管中,然后該管用洗滌緩沖液填滿。
- 單核細胞以300g離心8分鐘。
- 棄去上清液,細胞洗滌兩次,并重懸于洗滌緩沖液中以進行進一步富集或冷凍緩沖液(10% DMSO在FBS中)。
Enrichment for HSPCs
HSPCs 的富集
Para
- 從上一步中分離出的BMMCs開始,我們使用EasySep人臍血CD34陽性選擇試劑盒II(STEMCELL Technologies,目錄號17896)富集CD34+細胞。
- 簡要地說,EasySep人CD34陽性選擇雞尾酒(STEMCELL Technologies,目錄號18096 C)被添加到BMMC懸液中,濃度達到100 μl ml?1,并在室溫下孵育10分鐘。
- EasySep Dextran RapidSpheres(STEMCELL Technologies,目錄號50100)被渦旋并添加到每個樣本中,濃度達到50 μl ml?1,混合物在室溫下孵育3分鐘。
- 接下來,向管中加入洗滌緩沖液(7 ml),細胞在The Big Easy EasySep磁鐵(STEMCELL Technologies,目錄號18001)中洗滌四次。
- 最后,細胞被重懸于洗滌緩沖液中,并在300g離心10分鐘。
- 然后,CD34+細胞沉淀被重懸于冷凍緩沖液(10% DMSO在FBS中)。
Para
- 為進一步富集造血干細胞(HSCs),將一份富集的CD34+細胞染色,使用以下抗體組合之一:(1)CD34 PerCP-Cy5.5(BD Biosciences目錄號347222),CD45RA Alexa Fluor 488(BioLegend目錄號304114)和CD90 PE-Cy7(BD Biosciences目錄號561558),并使用DAPI(Thermo Fisher Scientific目錄號D1306)作為活細胞染料;或(2)CD34 BV421(BD Biosciences目錄號562577),CD45RA-APC-H7(BD Biosciences目錄號560674)和CD90 PE-Cy7(BD Biosciences目錄號561558),并使用7-AAD作為活細胞染料(BD Biosciences目錄號559925)。
- 隨后使用每種抗體3 μl對100 μl細胞懸液進行染色。
- 細胞進一步通過BD FACSAria進行分選,以CD34+CD45RA?CD90+為標準富集HSCs。
- 分選策略見補充信息。
Para
- BMMCs以及富集的CD34+和CD34+CD45RA?CD90+細胞在冷凍緩沖液(10% DMSO在FBS中)中進行了冷凍保存。
- 解凍后,細胞立即進行處理,盡快用于實驗,不進行培養。
Principle of ReDeeM
ReDeeM原則
Para
- 我們在此開發了ReDeeM,這是一種基于10X Genomics平臺修改后的、大規模并行單細胞協議,能夠同時進行多組學分析并深度測序mtDNA。
- 該系統的關鍵特性如下:(1)優化了最大化mtDNA產量的協議;
- (2)特定富集的mtDNA文庫,可以承受非常高的測序覆蓋度;
- (3)獨特的分子標識符,用于標記單個mtDNA分子,允許使用錯誤校正以實現高精度mtDNA突變的調用;
- (4)一種穩健的推理算法,利用更深入和改進的mtDNA突變檢測進行系統發育重建;
- (5)同時進行的scRNA-seq和scATAC-seq,將系統發育關系與細胞狀態讀數聯系起來。
- 通過ReDeeM,生成了三個獨立的文庫,包括一個用于深度測序和突變分析的富集mtDNA文庫,一個用于基因表達的RNA文庫,以及一個用于染色質可及性分析的ATAC文庫,所有這些文庫都通過可匹配的單細胞條形碼連接。
Para
- 遵循我們之前工作的原則28,29,我們首先修改了基于液滴的10X Genomics多組學協議(目錄號100283),通過處理整個細胞,而不是細胞核,進行固定和輕度滲透,以最大限度地保留mtDNA。
- 接下來,我們設計了mtDNA特異性探針組,通過DNA雜交來富集線粒體片段。
- RNA和ATAC文庫的制備遵循標準的10X Genomics協議,并進行了一些修改。
Para
- 進一步的方法細節在補充方法和 ReDeeM 協議中有所描述。
- ReDeeM 進一步通過共識變異調用流程 redeemV 以及 R 包 redeemR 獲得計算支持,用于下游突變質量控制以及單細胞系統發育和綜合分析。
ReDeeM protocol
ReDeeM協議
Para
- 詳細的協議可作為補充協議提供。
CRISPR lineage-tracing experiment with ReDeeM
CRISPR譜系追蹤實驗與ReDeeM
Para
- 小鼠實驗得到了麻省理工學院機構動物護理和使用委員會的批準(機構動物福利保證,編號A-3125-01)。
- 一個攜帶條件等位基因KrasLSL-G12D/+和Trp53fl/fl的雄性小鼠胚胎干細胞系被工程化,帶有譜系追蹤盒。
- 詳細的工程化過程,包括載體信息、腫瘤收獲和單細胞懸液的制備,如參考文獻36中所述。
- 兩個獨立的小鼠胚胎干細胞系被用于批次1和批次2的實驗。
Para
- 批次1(六個腫瘤)和批次2(四個腫瘤)的單細胞用Cell Hash標記,并使用ReDeeM進行表征,除了以下修改:需要額外的目標位點文庫。
- 擴增的cDNA文庫使用含有Illumina兼容適配器和樣本索引(oDYT023-oDYT038,正向:5′CAAGCAGAAGACGGCATACGAGATNNNNNNNNGTCTCGTGGGCTCGGAGATGTGTATAAGAGACAGAATCCAGCTAGCTGTGCAGC;反向:5′-AATGATACGGCGACCACCGAGATCTACACNNNNNNNNTCTTTCCCTACACGACGCTCTTCCGATCT;N表示樣本索引)的目標位點特異性引物進一步擴增,使用Kapa HiFi ReadyMix(Roche),如前所述。
Para
- 對于單細胞RNA、單細胞ATAC和線粒體DNA文庫的測序,采用了ReDeeM方法中描述的策略,但設計了四組小鼠特異性探針以富集線粒體片段(補充方法和補充數據1)。
- 對于目標位點文庫的測序,預期每個細胞總共15,000個讀數,并使用了以下讀長:Read1,26個循環;i7,八個循環;Read2,290個循環。
Para
- CRISPR和ReDeeM基礎上的譜系追蹤的綜合分析詳見補充方法。
mtDNA mutation burden
線粒體DNA突變負擔
Para
- 我們使用定量方法估計了線粒體DNA(mtDNA)突變負擔。
- 每個細胞中檢測到的突變數量是生物學突變負擔和技術可檢測性的函數,后者受mtDNA捕獲率的影響。
- 我們通過兩種方式計算mtDNA突變負擔:一是相對于mtDNA覆蓋度(每個細胞中每個位置的mtDNA拷貝數)進行標準化,二是使用eUMI過濾率,用于校正不同實驗中由于測序深度、測序質量等因素引起的批次效應。
- 對于樣本j中的單個細胞i,突變負擔的計算方式為
Inferring lineage distance and phylogenetic tree using mtDNA mutations
使用線粒體DNA突變推斷親緣距離和系統發育樹
Para
- 在完成所有使用 R 包 ReDeeM-R (https://github.com/sankaranlab/redeemR) 的過濾步驟后,包括變異和細胞過濾(擴展數據圖 1i;所有包含的參數都可以調整以控制嚴格性),我們生成了稀疏矩陣 C,以包含所有變異等位基因計數(細胞與 mtDNA 突變)。
- 等位基因計數矩陣進一步被 mtDNA 拷貝數矩陣(每個位置每個細胞)除,生成了用于可視化的異質共生矩陣 H。
- 由于突變計數數據較為稀疏,定量異質共生水平容易受到 mtDNA 覆蓋度變化的影響。
- 為了最小化覆蓋度和下游分析中異質共生動態的偏差,我們對矩陣 C 進行了二值化處理,生成了矩陣 Cbin。
- 我們發現,考慮到每個單細胞中識別出的變異數量,二值化更為可靠,并提供了足夠的分辨率。
- 盡管如此,定量矩陣 C 和二值化矩陣 Cbin 都被提供用于 ReDeeM-R 的下游分析。
Para
- 基于矩陣 Cbin,我們計算了細胞間的加權 Jaccard 距離。
- 利用多個供體中 mtDNA 突變頻率的先驗信息對 Jaccard 距離進行加權,以考慮潛在的趨同進化。
- 直觀地說,加權 Jaccard 距離衡量任意兩個細胞共享突變的程度——也就是說,在適當的標準化之后,共享的 mtDNA 突變越多,兩個細胞的關系越密切。
- 我們首先為每個突變定義了一個先驗概率,該概率優先考慮在供體中突變率較低的突變(即,不太可能是獨立發生的相同突變)。
- 對于細胞 x 和 y,加權 Jaccard 距離(Dw_Jaccard)定義為
Para
- 接下來,將加權Jaccard距離輸入到鄰接算法中,用于使用ape和ggtree包進行系統發育樹的重建和可視化(本文中始終使用clado圖進行可視化,以便專注于樹結構的拓撲)。
Lineage origins of haematopoietic cell types
造血細胞類型的譜系起源
Para
- 我們最初通過建模所有細胞類型中的突變分布來選擇‘譜系信息性’的線粒體DNA(mtDNA)突變。
- 我們移除了隨機分布的突變,這些突變可能出現在某些無偏的干細胞克隆中,因此在研究細胞類型亞克隆起源方面信息量較少。
- 具體來說,我們首先將所有細胞類型分為四大主要分化軌跡:髓樣(GMP, MDP, 單核細胞),淋巴樣(CLP, ProB, CD4, CD8, B, NK),巨核細胞(MK前體)和紅細胞(MEP, 紅細胞前體)。
- 使用二項檢驗測試任意兩個分化軌跡之間每種mtDNA突變的頻率。
- 當所有比較的P值大于0.05時,mtDNA突變被定義為隨機分布。
- 我們過濾掉了所有隨機分布的突變,并生成了一份譜系信息性mtDNA突變列表(圖2g中使用了631個譜系信息性突變)。
- 使用這些突變,我們生成了矩陣Cbin并計算了加權Jaccard距離。
- 然后我們生成了描述基于共享突變的細胞間譜系關系的KNN圖G。
- 接著我們將多組學分析中的細胞類型注釋與圖G整合。
- 對于任何給定的細胞(查詢細胞),計算圖G上KNN中每種細胞類型(目標細胞類型)的比例。
- 然后匯總并縮放每個查詢細胞類型的目標細胞類型比例,如圖2g和補充圖5所示。
- 最后,根據鄰居內的目標細胞類型比例,通過層次聚類對查詢細胞類型進行分組。
HSC subpopulations and clone-to-state preferences
HSC亞群及克隆-狀態偏好
Para
- 為了對HSCs進行特定研究,我們實驗性地富集了CD34+CD45RA?CD90+群體,如前所述。
- 我們進一步使用半無監督方法細化HSC群體。
- 首先,我們使用Seurat71對所有細胞在WNN上進行基于社區檢測的聚類。
- 其次,我們計算了每個簇的HLF基因表達水平平均值,并定義了HLF高表達(HLFhi)和HLF低表達(HLFlow)簇。
- 第三,我們同時檢查了每個單細胞的HLF和CRHBP基因表達水平。
- 我們要求任何HSC細胞都高度表達HLF和CRHBP,并且歸類于HLFhi簇中。
- 定義的HSCs進一步使用其他HSC特征進行檢驗,包括MECOM、HOPX、AVP、MLLT3、RBPMS等。
- 為了提高弱表達基因的穩健性,表達數據使用Rmagic包進行增強以供可視化。
Para
- 對于上述精細化的造血干細胞(HSCs),我們在加權最近鄰網絡(WNN)上進行了二次聚類以定義亞群。
- 這些亞群是使用Seurat軟件在0.6分辨率下識別的。
- 亞群在基于RNA、ATAC和WNN的UMAP圖上進行了可視化。
- 差異表達基因和可訪問染色質是通過Seurat軟件的FindMarker功能識別的。
- 差異峰的DNA結合基序是通過‘find individual motif occurrences’掃描,使用HOCOMOCOv11_full_HUMAN_mono人類轉染因子基序數據庫進行分析的,隨后通過二項式測試跨造血干細胞亞群特異性的開放染色質峰(相關內容見補充圖6)。
- 在單細胞水平上對差異基序的可視化是通過chromVar軟件進行的。
Para
- 為了最佳捕捉主要造血干細胞(HSC)克隆結構,我們使用詞頻-逆文檔頻率和奇異值分解對二進制化的mtDNA變體-細胞矩陣進行了歸一化和降維處理。
- 使用前30個潛在語義索引來測量歐幾里得距離,該距離進一步傳遞給鄰接算法以構建系統發育樹。
- 接下來,使用之前描述的最大似然法將mtDNA突變分配到樹分支上,該方法已集成在redeemR中(Add_AssignVariant函數)。
- 我們將HSC克隆群定義為包含至少50個單細胞的最小進化枝單元,其基礎邊緣至少有一個確信分配的突變(‘邊緣’指的是系統發育樹中連接兩個節點的線;使用了ReDeeM-R中的Add_tree_cut函數)。
Para
- 接下來,我們檢查了每個造血干細胞(HSC)克隆群在所有基于RNA和ATAC細胞狀態的HSC亞群中的分布情況。
- 與背景相比,計算了給定克隆群在每個細胞狀態亞群中的富集倍數,并通過超幾何檢驗估計了P值。
- 比較了來自兩個采樣時間點的HSC的富集倍數和P值。
- 使用Fisher方法合并了兩個時間點的P值,并使用qvalue R包計算了FDR。
- 定義HSC克隆到細胞狀態偏好的截止標準如下:合并P值小于0.01且FDR小于0.05,且log2倍數變化(時間點1)大于0.25且log2倍數變化(時間點2)大于0.25。
- 完整統計數據見補充數據4。
HSC progeny clonal assignment using network propagation
使用網絡傳播進行HSC后裔克隆分配
Para
- 結合同一供體中HSCs的采樣以及已定型和分化的后代,我們旨在利用mtDNA突變譜的相似性將后代分配到其中一個HSC克隆群。
- 簡而言之,我們首先利用同一供體所有細胞的共享mtDNA突變構建了一個包容性的克隆網絡。
- 接下來,每個HSC克隆群的HSC細胞作為種子,通過克隆網絡傳播克隆信息,直到達到穩態。
- 每個克隆群都迭代用于網絡傳播。
- 網絡傳播后,每個細胞攜帶的信息代表了給定HSC克隆群的分配概率,并通過比較所有克隆群的歸一化概率來確定最終分配。
Para
- 由于mtDNA變體-細胞矩陣高度稀疏,確定單個細胞的任務具有挑戰性。
- 我們之前的研究表明,盡管單細胞基因組學數據固有的高維性和廣泛的稀疏性,單個細胞的表型相關性可以在細胞-細胞相似性圖中忠實地建模,并通過網絡傳播算法有效識別。
- 在這里,使用類似原理,我們開發了SCAVENGE–L,它使用利用克隆鄰域信息的網絡傳播策略,并高效地通過概率度量分配細胞。
- 我們認為,單個細胞的克隆結構可以忠實地蒸餾到一個網絡中,其中每個節點代表一個細胞,每條邊代表細胞間的mtDNA突變譜相似性。
- 通過定義感興趣的細胞(即HSC克隆組),我們可以利用這個網絡,結合網絡拓撲結構和細胞-細胞距離,搜索高度相關的細胞(即后代)。
Para
- 我們首先生成了一個完全二值化的mtDNA變異-細胞矩陣,其中包含了來自特定捐贈者的所有干細胞、祖細胞和分化細胞。
- 我們進行了詞頻-逆文檔頻率處理,然后通過奇異值分解進行歸一化和降維。
- 前30個潛在語義索引用于構建相互KNN圖(mKNN)。
- 接下來,我們在mKNN圖上突出顯示了每個HSC克隆群,然后使用帶重啟的隨機游走方法來發現每個HSC克隆群細胞的子代,我們稱之為種子細胞。
- mKNN圖上的信息可以傳播,并且在穩態下網絡中保留的信息可以用來衡量任何給定細胞屬于HSC克隆群(種子細胞)的概率。
- 我們使用0.05的阻尼因子從每個HSC克隆群(種子)迭代進行網絡傳播分析。
- 最終生成了一個細胞-克隆群概率矩陣,用于衡量分配的置信度。
- 我們將0.7以上的最大概率作為截止值,以過濾掉模糊的子代(補充圖7a-e)。
Para
- 由于HSCs也被納入mKNN網絡并通過網絡傳播進行處理,它們可以通過算法通過網絡傳播被分配到一個克隆組;同時,實際的HSC克隆組被用作真實值。
- 通過比較預測的HSC克隆組與真實值,我們設法在將SCAVANGE–L應用于將后代分配到HSC克隆組之前,對其魯棒性進行了基準測試(補充圖7)。
HSC clonal output and lineage biases
HSC克隆輸出和譜系偏倚
Para
- 為了研究HSC克隆輸出活性,我們從同一供體在兩個采樣時間點收集了HSC及其所有分化后代。
- 基于mtDNA突變,我們應用SCAVENGE–L將分化后代分配到每個HSC克隆。
- 接下來,我們通過計算每個HSC克隆組的后代數量來測量克隆輸出水平,然后通過與HSC克隆大?。總€克隆組的HSC數量)進行標準化。
- 我們比較了兩個采樣時間點的克隆輸出水平,并計算了Pearson相關系數。
- 為了評估不同HSC克隆對造血的貢獻,我們將它們從高到低進行排名,并計算這些克隆貢獻的分化后代累積比例。
Para
- 接下來,我們對每個造血干細胞(HSC)克隆計算了四種主要譜系的比例,這些譜系根據細胞狀態定義:髓系(單核細胞、GMP、MDP、cDC)、紅細胞系(MEP、EryP)、巨核系(MKP)和淋巴系(CD4、CD8、NK、B、ProB、CLP)。
- 譜系偏倚通過二項分布模型與兩個采樣時間點的所有細胞背景進行對比。
- 在兩個時間點均具有一致富集倍數變化的HSC克隆被歸類為偏倚克隆。
- 兩個時間點的富集P值通過費舍爾方法合并,合并后的P值使用R包qvalue進行調整作為FDR。
- 富集倍數變化分別獨立計算每個采樣時間點。
- 最后,HSC克隆輸出水平和譜系偏倚進行標準化,并計算皮爾遜相關系數以評估輸出活性與譜系偏倚之間的關系。
Clonal expansion analysis in ageing
衰老中的克隆擴增分析
Para
- 首先,我們從兩位年輕捐贈者(31歲的女性和26歲的男性,分別標記為young-1和young-2)和兩位老年捐贈者(76歲的男性和78歲的男性,分別標記為aged-1和aged-2)中收集了BMMCs和CD34+ HSPCs。
- 使用之前描述的相同共識變異調用流程和鄰接算法,我們為所有四位捐贈者重建了系統發育樹。
- 克隆擴張通過兩種方法進行估算:基于克隆的和基于類群的。
- 對于前者,我們首先按照上述方法識別克隆群。
- 簡而言之,變異被概率性地分配到分支上,然后我們剪掉具有至少n個置信變異且克隆群大小至少為m的分支。
- 涉及的參數包括m(克隆中的最小細胞數,默認為50)、n(分支上要剪掉的最小累積變異數,默認為1)、P(變異被分配的概率,默認為0.6)和D(丟棄小于D個細胞的小克?。?。
- 我們通過累積比例比較了年輕和老年捐贈者之間克隆大小的分布。
- 為了排除定義克隆群的參數潛在偏差,我們調整了參數組合(m, n, P, D)并比較了年輕和老年捐贈者之間的克隆大小分布(擴展數據圖9c)。
- 接下來,還計算了每個捐贈者的Shannon多樣性指數S,以衡量年輕和老年捐贈者之間的克隆多樣性。
- 給定克隆群i,sizei是該克隆的細胞數。Shannon多樣性指數的計算公式為
Para
- 對于基于進化枝的方法,我們按照之前描述的方法識別了擴張進化枝,并使用Cassiopeia包中的cassiopeia.tl.compute_expansion_pvalues函數實現了這一過程(該包可在https://github.com/YosefLab/Cassiopeia獲取)。
- 簡而言之,我們將子克隆中包含的細胞數量與其直接的‘姐妹’細胞進行比較,并使用合并模型計算在自然選擇下觀察到這一現象的概率。
- P值小于0.01且至少包含5%細胞的進化枝被注釋為擴張進化枝(擴展數據圖9a)。
- 最后,每個供體中由擴張進化枝貢獻的細胞比例被總結出來(擴展數據圖9b)。
Inferring single-cell fitness
推斷單細胞適應性
Data availability
Para
- 手稿中生成的所有數據已存入GEO(GSE219015)。
- 處理后的Seurat對象可在figshare上獲?。?a target="_blank">https://doi.org/10.6084/m9.figshare.23290004。
- 處理后的突變調用文件可在figshare上獲?。?a target="_blank">https://doi.org/10.6084/m9.figshare.24418966.v1。
- 單菌落全基因組測序數據來源于dbGaP(phs002308.v1.p1)。
- 轉錄因子基序數據庫JASPAR2020(https://jaspar2020.genereg.net/)用于ChromVar分析。
- HOCOMOCOv.11(https://hocomoco11.autosome.org/downloads_v11)人類轉錄因子數據庫用于‘查找單個基序出現’分析。
Code availability
Para
- ReDeeM 數據集可以通過共識變異調用命令工具 REDEEM-V (https://github.com/sankaranlab/redeemV) 和內部 R 包 REDEEM-R (https://github.com/sankaranlab/redeemR) 進行下游的系統發育和綜合分析。本工作中包含的分析的可重復性代碼也已提供 (https://github.com/sankaranlab/redeem_reproducibility)。