Hackl, H., Charoentong, P., Finotello, F., & Trajanoski, Z. (2016). Computational genomics tools for dissecting tumour-immune cell interactions.?Nature Reviews Genetics,?17(8), 441.
摘要:
癌癥免疫療法方面的突破和高通量技術成本的降低,引發了使用基因組工具對腫瘤免疫細胞相互作用的深入研究。 數據的豐富性和復雜性帶來了相當大的挑戰,需要計算工具來處理、分析和實現可視化。 近年來,研究人員已經開發各種用于挖掘腫瘤免疫和基因組數據的工具并提供新穎的機制解讀。本文我們將綜述用于癌癥免疫研究的各類計算基因組學工具,并提供有關要求和功能的信息。
關鍵詞:
正文:
癌癥免疫療法基于誘導或增強對癌癥的免疫應答的藥劑。 目前,除了靶向癌細胞的單克隆抗體外,單一療法還基于三種策略:使用檢查點阻斷劑,接種新抗原和過繼性T細胞轉移。 另外,免疫單一療法的組合以及免疫療法和靶向療法的組合也正在研究中。
癌癥免疫療法有可能適應腫瘤的變化,因為免疫系統能促進特定的T細胞的產生,識別腫瘤表面發生改變的抗原從而殺死腫瘤細胞。然而,腫瘤細胞可以通過上調免疫細胞表面的免疫檢查點分子,如細胞毒性T淋巴細胞相關蛋白4(CTLA4)或程序性細胞死亡分子1(PD1)來逃避免疫系統的檢測。最近,已經引入了幾種阻斷免疫檢查點并由此增強抗腫瘤T細胞應答的抗體,并顯示出顯著的臨床效果。接受CTLA4靶向抗體治療的黑色素瘤患者,3年后存活曲線達到平臺期,表明這種方法持久的益處甚至治愈潛力。此外,PD1靶向抗體的功效不僅在黑色素瘤中顯示,而且在九種不同的腫瘤類型中也顯示出來,如非小細胞肺癌,肝癌,腎癌和淋巴癌7。我們目前正在目睹檢查點阻滯劑的快速發展,從150多項臨床試驗中可以看出,它們被用在單一療法或聯合治療中7。然而,只有一小部分患者對檢查點阻滯劑的單一療法有反應,因此確定精確的作用模式和預測標志物是需要深入研究的主題。
繼第一批癌癥免疫療法 - 即單克隆抗體的使用,以及檢查點阻斷劑免疫療法的開發,和其他免疫治療策略,包括治療性疫苗和工程化T細胞,使得腫瘤 - 免疫細胞相互作用成為焦點。解析這些復雜的相互作用,有望鑒定預測性生物標志物,發展新藥或新的治療手段,并且促進機制研究。然而,由于這兩種多細胞生態系統的演變和異質性,使得腫瘤-免疫細胞相互作用的研究具有相當大的挑戰:癌癥的發展,可以看作是一種進化過程;免疫系統,包含許多先天和適應性免疫細胞亞群,其中一些表現出表型可塑性并具有記憶。NGS技術和其他中高通量技術正在產生大量數據,需要信息系統來處理和分析數據,提取信息以開發機制理論并支持臨床決策。因此,癌癥免疫基因組學也可以被視為信息科學,并將為新型免疫治療策略的開發和成功應用鋪平道路。
在本綜述中,我們首先簡要介紹腫瘤-免疫細胞的相互作用,然后討論用于挖掘癌癥基因組數據和提取免疫參數的計算基因組學工具。 我們專注于對NGS數據的更高級別分析,包括腫瘤浸潤淋巴細胞(TILs)的定量,腫瘤抗原的鑒定和T細胞受體(TCRs)的分析,并提供有關需求和功能的信息以幫助選擇工具和分析管道的組裝。 雖然這里的重點是癌癥免疫學,但所討論的計算方法也為研究其他疾病提供了手段,如自身免疫,炎癥,感染或移植物抗宿主疾病。
腫瘤-免疫細胞互作
癌癥免疫循環包括幾個連續步驟:癌細胞產生的新抗原在癌細胞死亡后釋放并被樹突細胞捕獲。 接下來,樹突細胞將主要組織相容性復合物(MHC)分子上捕獲的抗原呈遞給T細胞,導致針對癌癥特異性抗原的效應T細胞應答的引發和活化。 在趨化因子梯度的指導下,活化的T細胞進入并滲入腫瘤部位。 T細胞通過T細胞受體(TCR)和新抗原-MHC復合物之間的相互作用特異性識別并結合癌細胞并殺死癌細胞(細胞溶解活性)。 各種分子和基因組學工具可用于評估這些癌癥免疫細胞相互作用的每個階段及其刺激或抑制因子。
組學數據分析概述
NGS技術在基因組,轉錄組或表觀基因組分析中的應用是腫瘤免疫基因組學數據的主要來源。此外,最近在圖像技術和相關軟件工具以及細胞表型分析技術方面取得了進展,可以生成與基因組類型相輔相成的數據類型。對于腫瘤免疫基因組學中大多數問題,可以應用與癌癥基因組學中相同的NGS技術,它們包括全外顯子組測序(WES),全基因組測序(WGS),RNA-seq,用于DNA甲基化分析的亞硫酸氫鹽測序和單細胞測序。 然而,對于特定應用,例如TCR測序,需要仔細考慮讀取長度,測序數據(WES,WGS或RNA-seq)的深度和類型。
在癌癥免疫學的背景下對組學數據的分析可以被視為兩步程序(圖2)。在對原始數據進行預處理之后,第一步是組學數據分析,主要關注腫瘤本身。該步驟包括用于鑒定SNP,小的插入和缺失,拷貝數變異(CNV),結構變異,基因融合以及變體注釋的工具。基因組分析組中的另一組工具用于分析使用RNA-seq評估的基因的表達,從WES和/或SNP陣列數據估計腫瘤異質性或分析DNA甲基化模式。第二類分析使用免疫基因工具,更關注腫瘤-免疫細胞相互作用。作為輸入數據,它們使用基因組分析和/或原始測序數據的輸出。這些免疫基因組學分析的結果提供了有關腫瘤微環境的兩個關鍵特征的信息:浸潤的免疫細胞的組成和功能定向以及腫瘤抗原的來源和數量。
使用基因組數據確定腫瘤浸潤的細胞組成
由于不同類型的TIL對腫瘤進展有不同的影響,確定腫瘤中免疫浸潤的細胞組成不僅提供了預后信息,而且還可以促進標志物預測和新治療策略的發展。成像和細胞表型技術被廣泛使用,可以提供有關免疫結構的部分信息,但細胞表型分析技術的固有局限性阻礙了大量TIL亞群的特征化。因此,研究人員開發了計算基因組工具以提供TIL的全面圖像。應用于此目的的計算基因組學工具可以分組為基因集富集分析(GSEA)和去卷積方法(圖3a)。值得注意的是,GSEA和反卷積方法都依賴于個體細胞群的表達譜矩陣。用這些方法重建的TIL亞群包括在表達譜的參考矩陣中定義的免疫亞群。
富集方法依賴于基因集分析技術,基于樣本之間的比較或單樣本方法。 GSEA評估排序基因列表,用于統計富集參與某種途徑和細胞過程的基因。在比較方法中,基于兩種生物狀態之間的差異表達對基因進行排序。或者,可以使用單樣本GSEA(ssGSEA)富集評分,表示特定基因組中的哪些基因在單個樣品中上調或下調了。 GSEA可用于解釋從微陣列或RNA-seq獲得的基因表達數據。
GSEA的優勢在于它可以使用現有工具輕松應用,與傳統的基因表達分析相比,沒有額外的樣本量要求。GSEA的必要要求是與特定免疫亞群相關的基因標記的組裝(圖3b)。在一項開創性研究中,從免疫和非免疫細胞的全血微陣列表達數據中定義了一組免疫特征基因34。最近,來自人免疫學項目的免疫學特征的基因集合(ImmuneSigDB)35被收錄到分子特征數據庫(MSigDB)36中。通過分析389項關于小鼠和人體免疫系統中細胞狀態和擾動的已發表研究,產生了約5,000個注釋良好的基因的補充35。
解卷積方法使用表達特征矩陣從來自細胞混合物的表達數據推斷特定細胞比例(圖3c)。基于該算法,開發了一種使用二次規劃進行異質組織去卷積的R包.37。這個名為DeconRNASeq的軟件包可以處理RNA-seq數據,但它僅在少數細胞類型的混合物上得到驗證。已經開發了幾種其他方法,其使用各種技術來解決病態反問題(表1)。最近,一種用于從大塊腫瘤的微陣列數據推斷白細胞亞型的計算方法(稱為CIBERSORT)被引入38。 CIBERSORT使用22個白細胞亞群的信號表達矩陣并實現線性支持向量回歸38。盡管計算方法有各種成功的應用,但仍有幾個問題需要改進30。首先,需要具有基因表達譜的參考矩陣,所述基因表達譜來自血液樣品或優選來自使用RNA-seq的腫瘤樣品的分選的免疫細胞亞群。其次,由于解卷積對噪聲敏感,因此必須開發和實現魯棒算法。第三,需要使用獨立方法驗證方法,例如熒光激活細胞分選(FACS)或免疫組織化學。
與基于基因表達譜的去卷積方法一樣,細胞譜系特異性DNA甲基化模式可用于檢測和量化白細胞亞群39。為此目的,使用微陣列平臺(即,Illumina Infinium 27k和450k DNA甲基化陣列),使用來自少數甲基化CpG基因座的信息到全基因組基因座開發了許多方法和工具39-41。將這種方法應用于亞硫酸氫鹽測序技術的數據非常簡單。從表觀基因組關聯研究中可以明顯看出,表觀基因組在不同細胞類型中的變異很大42。
腫瘤抗原的鑒定
T細胞能夠識別與腫瘤細胞的MHC分子結合的腫瘤特異性抗原而排斥腫瘤。具有高腫瘤特異性的抗原 - 即由腫瘤細胞展示而不是由正常細胞展示 - 具有引發腫瘤特異性免疫應答的潛力,從而將不良副作用的風險降至最低,因此對于諸如工程化T細胞和治療性疫苗的癌癥免疫療法具有重要意義。
三類抗原具有高腫瘤特異性:首先是病毒抗原,其源自在病毒感染的腫瘤細胞中表達的病毒基因;第二種是癌癥種系抗原(CGAs),是通常僅由滋養細胞和種系細胞表達但在腫瘤細胞中具有異常表達的蛋白質;第三種是新抗原,它們是由體細胞突變基因的表達產生的肽鏈。自從發現第一個CGA,黑色素瘤抗原1(MAGE1;也稱為MAGEA1)被鑒定以來,已經在幾種腫瘤類型中鑒定到表達的大量癌癥種系基因。迄今為止,Cancer-Testis數據庫包含了有關CGA,和其在腫瘤和正常組織中的表達以及誘導的免疫應答的信息。利用可用的CGA列表,可直接在腫瘤和正常樣品的RNA-seq數據中提取它們的表達水平。
新抗原可被認為具有嚴格的腫瘤特異性,因為它們源于惡性細胞中的突變基因的表達,但不存在于正常基因組中。為了引發免疫應答,必須將突變的蛋白質蛋白水解加工成短肽,然后與MHC分子結合,以呈遞給T細胞(圖4)。當從匹配的腫瘤和正常樣品中獲得NGS數據時,可以通過整合三個計算任務來計算新抗原(圖4):從匹配的腫瘤-正常樣品中鑒定突變蛋白,然后進行HLA分型和然后預測新抗原-MHC的結合親和力。
組裝分析管道
在組裝癌癥免疫基因組學的計算流程時,必須特別注意評估數據是否允許提取無偏見和有意義的信息。例如,閱讀長度和覆蓋深度對來自測序數據的免疫庫和HLA等位基因的分析具有強烈影響。此外,還必須考慮用于生成數據的測序平臺,以確定所選工具是否能夠區分平臺特異性測序錯誤與真實變體。另一個需要考慮的問題是批次效應,它是由不同實驗條件引起的變異的技術來源。 可以使用降維工具(例如主成分分析)識別這些假象,并隨后使用替代變量分析進行校正。
直到最近,才報道了整合多個分析步驟的新抗原預測的計算解決方案(表1)。除NetTepi90外,目前還有其他解決方案,例如:NetCTLpan110,這是一種用于預測蛋白質分裂,TAP轉運和pMHC結合的泛特異性方法; EpiToolkit111,是一個基于Web的平臺,用于靈活整合預先選擇的計算模塊,用于表位預測和優先級排序; FRED 2(REF.112),它是HLA分型,表位預測和選擇的網絡資源,也允許定制管道的原型設計;和pVAC-Seq113,它是一種新的抗原鑒定管道,可以考慮突變覆蓋率,變異等位基因頻率和突變基因的表達。隨著云計算解決方案可用性的增加,我們預計在不久的將來,將開發利用這種計算基礎設施的癌癥免疫基因組學分析管道。