Xavier2016a 植物育種中的統計黑箱

Xavier A, Muir WM, Craig B, Rainey KM (2016) Walking through the statistical black boxes of plant breeding. Theor Appl Genet 129:1933–1949. doi: 10.1007/s00122-016-2750-y

抽象

關鍵信息
植物育種的主要統計程序是基于高斯過程,可以通過混合線性模型計算。
摘要智能決策依賴于我們從數據中提取有用信息的能力,以幫助我們更有效地實現我們的目標。許多植物育種者和遺傳學家在不理解方法的基本假設或它們的優勢和缺陷的情況下進行統計分析。換句話說,他們將這些統計方法(軟件和程序)視為黑盒子。黑盒表示具有用戶不完全理解的內容的機械的復雜件。用戶在不知道如何產生輸出的情況下看到輸入和輸出。通過提供統計方法的一般背景,本評論旨在(1)介紹機器學習的基本概念及其在植物育種中的應用; (2)將經典選擇理論與當前的統計方法聯系起來; (3)展示如何解決混合模型并將其應用擴展到基于譜系和基于基因組的預測;和(4)闡明全基因組關聯研究的算法如何工作,包括他們的假設和限制。

介紹

推理和模型可以是經驗的或實驗的設計。經驗方法(監督)最好地與良好表征的現象,其解決方案可以分析發現,而從數據推理和使用算法識別數據中的模式需要實驗方法。研究這些算法的科學被稱為機器學習(非監督)。機器學習還描述了專用于建立和研究能夠從數據學習的算法的人工智能的領域,努力尋找最小化給定損失的最優解。這使得這些機器學習算法比邏輯算法更靈活。
遺傳學充分利用機器學習的兩個特殊分支,即所謂的監督和無監督學習(Libbrecht and Noble 2015)。監督學習有助于解決有解釋和響應變量的問題。這通常適用于在定量遺傳學中的預測,選擇和分類。當沒有響應變量存在時,使用無監督學習,對于聚類基因型和在群體中發現混合物的問題
由于大多數感興趣的性狀的定量性質,在植物和動物育種中最常用的監督學習算法是高斯過程(GP)(Rasmussen 2004; Lynch和Walsh 1998)。** Fisher的無窮小模型,它形成了育種原理的基礎,表明無限多個隨機過程(指基因)控制觀察到的表型(Orr 2005; Farrall 2004),根據中心極限定理收斂到的高斯分布。 GP代表選擇理論,育種價值和關聯研究的基礎(Sorensen和Gianola 2002)
在監督學習程序中,
預測對于改善數量性狀是重要的,分類對于決策和分類性狀的遺傳改良是重要的。育種計劃開發特定產品以滿足各種市場的需要(Acquaah 2009; Cleveland和Soleri 2002)分類模型確定了定義這些市場邊緣的質量的邊界**(Lim 1997)。在大豆中,適應區域基于緯度,土壤和氣候來定義可在每個區域中栽培哪個成熟度組(MG)換句話說,它們決定了育種者的目標環境(Dardanelli et al。2006)。 Zhang et al。 (2007)提出大豆適應區有錯誤分類問題,因為MG IV到MG VI的生長區比原來想象的要大得多。
本文的主要目的是通過解釋統計遺傳學的理論和應用,揭示植物育種黑盒統計分析的內部工作,著重于廣泛應用的混合線性模型設計用于育種。

高斯過程

數量性狀都遵循某種分布模式。例如,具有兩個類的分類性狀遵循二項分布,如同大豆中的花的顏色,其為白色或紫色。性狀如谷物產量和植物高度是連續的,并且經常遵循正態分布。性狀的遺傳性可以假定在0和1之間的任何值,因此β分布最好地表征該過程。方差分量在連續的尺度上具有正值,因此,它們可以用卡方分布來描述。
由于大多數定量遺傳學假設正態性,知道如何處理植物和動物育種中的正態分布是特別重要的。正態分布具有S形特性,任何正態隨機變量X的期望值是其平均值(μ),并且與期望值的偏差是方差(σ2)。一旦參數均值和方差已知,可以使用概率密度函數(PDF,φ)來推斷觀察任何給定事件的概率,例如在給定群體中找到產生x bu / ac的植物的概率。如果為群體中的所有個體計算此概率,則這些概率的乘積是該特定平均值和方差的數據的似然性
計算發現產量等于或低于x的植物的概率需要累積密度函數(CDF,8),它是PDF的積分。圖1顯示了高斯特征的這些計算的示例。
在所有數據集中,每個觀測值包含一些關于未知參數的信息。因此,更多的數據提供更準確和精確的平均值和方差估計。有多種方法來估計分布的參數。這些包括似然法和貝葉斯過程。似然方法搜索使觀測數據的似然性(L)最大化的未知參數,使用PDF來定義數據和參數p(X,θ)的聯合概率,其中X表示觀測數據,θ )表示未知參數。對于簡單的正態分布,θ=(μ,σ2)。貝葉斯過程使用分配給未知參數的概率分布來估計參數,其被稱為先驗,以及似然方程。

無窮小模型和選擇理論

對于群體中的正態分布性狀,當育種者誘導平均值在所需方向上移動時,發生方向選擇(圖2)。為了實現這一點,育種者施加選擇閾值。高于該閾值的個體被選擇作為下一代的祖先,假定那些個體提供更好的遺傳性質(Recker等人,2014)。
影響表型的遺傳性質涉及具有陽性和陰性效應的等位基因。等位基因是代表對給定性狀的遺傳效應的基因的版本。等位基因可以在基因座內,跨基因座和外部刺激相互作用;這些現象分別被稱為基因作用,上位性和表達?;蜃鶖y帶的等位基因的數目取決于個體的倍性水平。在這里,我們關注二倍體生物,假設在每個軌跡兩個等位基因。
選擇強度(i)表示來自用作群體的截止值的平均值的標準偏差的數量;換句話說,選擇的個體在育種群體中保持作為祖先的截短點。所選擇的個體的這個群體代表單側截斷的正態分布。計算截斷分布的期望值
(μ)使用原始分布的平均值(μ)和標準偏差()以及截斷點(t =μ+iσ)(Wricke和Weber 1986),然后估計選定群體的預期平均值如:
下一代將不具有期望的平均值μ
,因為表型不完全是由于遺傳因素(Nyquist和Baker 1991)。盡管等位基因以非常復雜的方式相互作用的事實,觀察到的表型是與環境刺激(也稱為基因型 - 環境相互作用)相互作用的遺傳因子的表達。因此,實現的遺傳力(h2)定義為基于所選擇的祖細胞的新產生的觀察平均值(μ(t + 1))與其期望值(μ)之間的比率。實現的遺傳力不是跨代的。相反,在有限群體中施加的選擇壓力在選擇和遺傳增益的響應之間強加了主要的權衡(圖4)。 Fisher(1918)提出,對于給定的數量性狀,存在無限數量的具有影響表型,即所謂的無限小模型的小加性貢獻的基因(費舍爾是這個意思嗎?)。在選擇理論中,育種者的一般目標是在等位基因效應以加性方式工作的假設下,增加群體中期望的等位基因隨時間的頻率。該方法的例外包括與開發雜種(如玉米)的程序或通過克隆繁殖的物種(例如馬鈴薯)利用的雜種優勢相關的獲益。根據Fisher's模型,每個基因的結果是相加的,并且通過等位基因置換的效應來測量。該模型定義為由無限維空間(也稱為希爾伯特空間)的正態分布元素產生的高斯過程,其中基因組的每個無限小部分代表參數或維度。當應用于有限種群時,Fisher模型遇到種群遺傳問題。例如,有限群體可以只維持有限數量的等位基因(Kimura和Crow 1964)。此外,多個進化力將同時作用,如各種類型的選擇和長期隨機遺傳漂移,這引發連續瓶頸(Wright 1930)。有限群體的無限小模型的這種擴展稱為Wright-Fisher模型。大多數作物的育種群體遵循隨機Fisher-Wright過程的定義(Imhof和Nowak 2006):具有非重疊代的有限群體,二倍體行為和正在進行的選擇。
烏鴉和木村(1970)指出,費希爾定義為噪音的波動,Sewall Wright定義為(一個緩慢的)進化。
遺傳增益隨時間的穩定性取決于選擇強度,突變率,以及總(n)和有效(Ne)群體大小。有效的群體大小是植物育種計劃中有效選擇的主要限制因素,對傳統和基于基因組的選擇技術有嚴重影響(MacLeod et al。2014)*。根據Zeng和Hill(1986),當新的單倍體出現在等位基因進行固定的相同頻率時,最佳選擇強度發生,使得群體不耗盡其多樣性。自花授粉物種由于其繁殖性質而更有可能用完遺傳資源。例如,美國大豆的有效種群大小相當于27行(St. Martin 1982),而不足為奇的是,大豆產量已經接近產量高原(Egli 2008a),約為田間潛力的一半Specht等人,1999),因為這些有限的遺傳資源(Egli 2008b)。然而,“組學生成”中的新的育種工具可能會在目前有限的情況下提高收益(Rincker et al。2014)。

方差分解和簡約

數量性狀的表型處于非確定狀態。它需要一個隨機模型來近似無窮人口;換句話說,具有定義感興趣的方差分量的隨機變量的模型。表示表型變異的第一個模型是Fisher的無窮小模型,其中表型方差(σ2y)是遺傳(σ2G)和環境方差(σ2E)的函數,因此σ2P =σ2G +σ2E.
方差分量分析(VCA)在植物育種和農藝研究中非常常見。兩種最常見的方差分解方法是方差分析(ANOVA)和限制最大可能性(REML)計算。研究大豆基因型和環境的差異,Carvalho et al。 (2008)建議兩種方法在平衡實驗設計下提供相似的方差分量,但在不平衡條件下,ANOVA方法變得有偏差,而REML仍然提供一致的變量分量和最佳線性無偏預測(BLUP)(Henderson 1975 )。這使得REML程序成為育種研究中最常用的VCA方法,BLUP用于品種選擇(Piepho et al。2008)。在無窮小模型中,所有未由遺傳學解釋的變異是由于環境。在植物育種中,復制使我們能夠測量由于環境引起的變化,從而進一步分解模型的方差。因此,例如,可以估計基因型和環境之間的相互作用(σ2G×E)并分離純誤差(σ2ε)。每個術語可以進行進一步分解。例如,環境方差可以包括反映可控環境的分量(σ2Y),位置(σ2L)和管理(σ2M)。 Yan和Rajcan(2003)在大豆中進行了基因型分析,將所有可能的相互作用項(即σ2G×Y×L,σ2G×L,σ2G×Y)的σ2E分解為σ2Y和σ2L,大多數與環境相關的方差是由于年而不是位置。如果通過用共顯性分子標記(例如單核苷酸多態性(SNP))進行基因分型來提供基因型信息,那么育種者和遺傳學家也能夠細分遺傳方差項(Xu 2013)。遺傳變異的第一次分解產生了附加遺傳方差(σ2A),優勢遺傳方差(σ2D)和上位性(σ2I)。上位性表示基因座之間的相互作用,包括:加性添加劑(σ2AA),加性顯性(σ2AD)和顯性顯性(σ2DD)。
在這一點上,非常重要的是引入兩個概念:窄(h2)和廣義(H)遺傳(Acquaah 2009)。在統計學中,遺傳性被稱為類內相關系數,其是指由于其組分之一而導致的總變異量。廣義遺傳力是由遺傳學(H =σ2G/σ2P)引起的變異量,也稱為重復性(Nyquist和Baker,1991)。它說明了“自然與保護”,區分由于遺傳學和由于環境造成的變化。狹義遺傳力是由于僅與加性遺傳方差(h2 =σ2A/σ2P)有關的表型方差的一部分,其與在世代傳播的方差相關。后者對于育種數量性狀是重要的,因為它描述了育種值如何準確對應于表型。
遺傳方差分量的估計開始于使用核矩陣(又名親屬矩陣)定義個體之間的關系。該矩陣是對稱的方陣,其中每個單元指示每對個體之間的關系。然后矩陣用于解決亨德森方程(Henderson 1984),混合模型框架適應具有獨立和非獨立處理和觀察的項,以及由核矩陣表示的觀測值之間的相互依賴性。
分析使用多種類型的核矩陣(K)來表示隨機效應(即基因型)之間的關系。最簡單的情況假設隨機效應是獨立的,在這種情況下,內核然后由單位矩陣(K = I)表示。關于非獨立效應,最有名的內核包括譜系關系矩陣核(Wright的1922),基因組關系矩陣(VanRaden 2008)和空間核(Piepho 2009)
用于基因組分析的核是從基因型信息矩陣(M)構建的。該矩陣具有維數q×m,其中每行(q)表示基因型,每列(m)表示分子標記。因此,該矩陣中的每個細胞代表給定個體的基因座,并且每個基因座被數字編碼以表示{AA,Aa,aa}。許多基因組分析需要特異性等位基因編碼來正確解釋結果(Strandén和Chris- tensen 2011)。例如,G2A模型(Zeng等人2005)提出了集中等位基因編碼{2q,1-2p,-2p}以保持主效應和外因效應之間的正交性。表1介紹了一些經典的設置。相同的模型可以包括多個遺傳術語以使用多個核(加性,優勢和上位性)分解總遺傳方差。雖然可能向方差分解模型添加所需的復雜性(Akdemir和Jannink 2015),但這項研究必須考慮兩個統計原則:分層原則和稀疏原則。分層原則表明,低階項通常比高階項更重要。換句話說,上位性可能對總遺傳方差和高計算成本貢獻不大。稀疏原則涉及統計學分析,其中很少有術語解釋大多數變化。稀疏性在基因組分析中起著重要作用,因為在實踐中,不是所有的基因組都對所有性狀有貢獻,而是減少數量的區域貢獻最多。這些區域稱為數量性狀基因座(QTL)。 Lander和Botstein(1989)提出,數量性狀的表型方差不是單一正態分布,而是由與多個QTL組合相關的分布混合物組成的高斯過程(圖5)。
鑒定和定位QTL在定量遺傳學中是非常重要的。 QTL發現通過比較兩個模型的可能性工作(Yang et al。2014)。第一個是空模型(l0),其僅包含由加性核定義的多基因項(Xu 2013; de los Campos等人2010)。第二個是完整模型(l1),其包括除了多基因項之外的候選基因組部分(標記或區域)。該分析的統計測試是似然比測試(LRT),簡單地計算為比例l0:l1。結果可以LRT本身表示為p值(LRT?χ2ν= 1),或者通過將LRT除以4.61(Lynch和Walsh 1998)作為賠率的對數(LOD分數)。
QTL作圖發生在實驗和隨機種群中。有兩個主要的方法來找到QTL:鏈接映射和關聯映射。鏈接圖譜是一種跟蹤QTL作為標記物之間已知遺傳距離的圖譜函數的方法。它通常在為此目的設計的實驗群體中進行,在完全或簡化模型中不需要多基因項。關聯作圖是對整個基因組的單個標記的實驗或隨機群體的測試,其提供對亞群的存在的額外檢查。
在這兩種方法中,未檢測到的區域將使QTL的數量向下偏移,并且,QTL的平均效應向上,由于稱為Beavis效應的現象。是因為發現真實QTL的精度和準確性廣泛依賴于種群規模(Beavis 1998)和與種群類型相關的隱含假設(Xu 2003; Nyquist和Baker 1991)。

育種值和方差組分

在育種計劃中開發的只有一小部分品系作為商業品系釋放,并且基于表現最好的基因型進行選擇。然而,總是有多個感興趣的性狀,因此選擇可以采取幾種形式:一次一個性狀(即串聯選擇),同時多個數量性狀(即獨立剔除)或性狀組合(即指數選擇)。此外,有三個指標來評估數量性狀:表型值,遺傳價值和育種價值。雖然基于表型值的選擇以直接的方式使用表型,但遺傳和育種值的估計需要實施混合模型?;旌夏P屠碚撌沁z傳學家亨德森(Charles Henderson)的生活工作,他主動實施和應用賴特的家譜核矩陣進行育種和選擇。這個理論是現代基因組預測方法的基礎。線性模型表示當響應變量(y)是固定效應項(Xb)和一個或多個隨機效應(Zu)而不是殘差(e)的函數的混合效應?;旌夏P偷某R姺栍上率浇o出:
y = Xb + Zu + e u?N(0,Kσ2a)e?N(0,Rσ2e)
其中X和Z分別是固定和隨機效應的尺寸n×p和n×q的設計矩陣。對于這些矩陣,n表示數目觀察值,p表示固定效應參數(塊,協變量等)的數目,q表示隨機效應參數的數目,在這種情況下是基因型的數目。固定和隨機效應的回歸系數b和u是長度為p和q的向量。隨機項和殘差方差表示為σ2a和σ2e。矩陣K和R分別是用于定義隨機效應(即基因型)和觀測值之間的關系的隨機效應(q×q)和殘差(n×n)的內核。對于該模型,y的協方差由協方差矩陣(V)表示為隨機和殘余項(V =ZKZ'σ2a+Rσ2e)的函數。設計矩陣的示例顯示在附錄中。
線性模型的一個常見假設是考慮殘差是獨立的(R = I)。然而,殘差關系矩陣可以提供處理相關殘差(即異方差)的有效方法。例如,可以使用R矩陣來通知場圖中的成對距離的模型(即,kriging)。這允許我們承認在場中可能存在某些斑點,其中場圖可以比其他場更好地執行,而不必知道這些斑是在哪里。
隨機效應的顯著特性是基于它們對模型的貢獻來歸一化回歸系數的收縮。正則化參數由λ(λ)表示,其被分析地定義為殘差方差和隨機項變量之間的比率(α=σ2 e /σ2 a),使得遺傳項的收縮與性狀的遺傳性。因此,h2 =(1 +α)-1。
具有非獨立隨機項的混合模型的最簡單的情況是所謂的動物模型。動物模型是Henderson的Fisher's方差分解的實現,其將不是由于遺傳項導致的一切歸因于誤差,因為可能在模型中包括可控的環境因素作為固定效應。動物模型是基于基因組的分析的大多數方法的基礎,包括基因組預測和關聯研究。為了促進解決方案,動物模型的簡化混合模型方程(MME)假設殘差不相關(R = I),將其減少到Cg = r問題,如下:
?X'XZ'X
其中C是包括設計矩陣和核矩陣的叉積的方陣,g是固定和隨機效應的回歸系數的向量,r表示設計矩陣和響應變量的叉積。
在這個設置中,內核矩陣K將定義模型為選擇目的產生什么類型的值。如果K是單位矩陣,則u是遺傳值的向量,對于其重復觀察是特別重要的。如果K是譜系或基因組關系矩陣,則u是育種值的向量,其中共享K中定義的遺傳基礎的個體作為部分復制。如果K是非線性核(例如高斯),則u是非線性基因組值的向量,因為高斯核可以解釋某種程度的上位性。為了避免沖突的術語,從這一點上,術語“育種值”表示隨機效應系數u。如果事先知道σ2 e和σ2 a,則找到系數b和u不會是問題,因為C g = r可以通過最小二乘回歸來求解。然而,有必要同時從數據估計系數和方差分量。由亨德森方法估計的參數被描述為“經驗貝葉斯”,因為他們基于數據(Zhou和Stephens 2014; Gianola等人,1986)估計解決模型所需的先驗信息(即σ2e和σ2a)。 Sorensen和Gianola(2002)通過將X'X表示為額外的隨機效應(X'X +ΔK-1)來表示混合模型的貝葉斯性質,由于先驗知識σ2b=∞,這導致具有獨立項(ΔK-1 = 0×K-1 = 0)的零縮小(σ=σ2e/σ2b=σ2e/∞= 0)。 Sorensen和Gianola(2002)明確區分了頻率論和貝葉斯混合模型的概率性質:在頻率框架下,概率模型定義為y?N(Xb,ZKZσ2a+Iσ2e),而在貝葉斯框架下變為y?N(Xb + Zu,Iσ2e)。
除非先驗知道方差分量,剩下的問題是:如何找到一個lamta參數,提供了一個可靠的估計育種值?監督機器學習的主要策略是使用交叉驗證來找到的值?提供了最好的預測。交叉驗證的工作原理是將數據集劃分為k個子集,并測試大范圍值的可預測性??深A測性可以計算為均方預測誤差(越低越好)或預測與觀測值之間的相關性(越高越好)。一個三折交叉驗證發現?將工作如下:
1.將觀察到的數據分為三組(A,B,C)。 2.為?提出一個值。使用AB來預測C; AC預測B;和BC預測A,
4.計算該給定值的可預測性。 5.對寬范圍的值重復前兩個步驟。
6.使用值?提供最高的預測性。
??參數控制模型的復雜性,并因此控制偏差和方差之間的已知權衡。增加?添加偏差,減少方差,這通常創建更一致的預測。作為交叉驗證的替代,仍然可以估計值(σ=σ2e/σ2a),以提供最佳的線性無偏預測(BLUP)。有兩種流行的方法來估計基于內核的混合模型中的變量組件,以獲得一個魯棒的值?作為σ2e/σ2a(Robinson 1991):限制最大似然(REML)(Patterson和Thompson 1971)和貝葉斯吉布斯取樣(BGS)(Wang等人,1993)。我們還將提出一種包括使用再現核Hilbert空間重新參數化的替代方案(Gianola等人2006)。在呈現基于內核的模型之后,下一節還將介紹一些不需要顯式內核來提供等效BLUP解決方案的方法。

REML算法

REML可能是最常用的方差分量和回歸系數的通用估計方法。當觀測的數量大于參數的數量(n> p)時,它是相對無偏的,并且許多工作已經進入計算可行的算法(Zhou和Stephens 2014; Kang等人2008; Lee and van der Werf 2016; Misztal等人2002)。
有多種算法來計算REML方差分量。這是一個數值優化問題,其中主要目標是找到優化數據的受限最大似然的方差分量和回歸系數。作為方差分量的函數的數據的受限(對數)似然函數可以表示為:
其中V =ZKZ'σ2a+Rσ2e(Searle 1979)。流行算法包括無導出算法(Meyer 1989);一階導數方法,如期望最大化(EM)(Dempster等人,1977);和二階導數方法,如平均信息(AI)(Gilmour等人,1995)。一階和二階導數方法有一個解析解,但也可以通過蒙特卡羅數學求解(Matilainen等人2013)Meyer(1989)實現的無導出方法通過稱為單純形法的優化啟發式方法(Nelder和Mead 1965)找到了最大化上述似然函數的方差分量,這與“猜測和檢查”方法類似。經典版本對于具有大數據的復雜模型是無效的,但Kang等人(2008)重新引入了一個替代版本,直接搜索?使負對數似然最小化,稱為效率混合模型關聯(EMMA)算法。 Henderson(1984)提出了基于Dempster等人的EM-ML算法的期望最大化(EM-REML)算法。 (1977),使用Searle(1979)簡化的受限對數似然的一階導數。EM的原理是迭代更新殘差,變量和系數如下:
其中C22表示來自C-1的C22項,W = [X,Z]。 EM是一個非常一致的算法,但它收斂緩慢,它需要每輪的C反演找到回歸系數。 一些數值策略可以幫助解決MME,例如Cholesky分解和Gauss-Seidel算法(Legarra和Misztal 2008)。
牛頓型方法使用由二階導數獲得的梯度同時更新兩個方差分量。 梯度由在參數最小化負對數似然性的方向上收斂的泰勒級數生成(Hofer 1998)。 在這些方法中,Gilmour等人提出的平均信息(AI-REML) (1995)是最常見的,因為它基于預期和觀察到的信息的平均值創建梯度。 用于在動物模型中找到方差分量的迭代算法AI-REML是:
其中參數化矩陣P被定義為P = V-1 -V-1X(X'V-1X)-1XV-1。 AI-REML在計算上是苛刻的,但是它在幾次迭代中收斂到一致的結果。 這種算法已經廣泛應用于育種應用(Gilour等人2009; Meyer 2007; Misztal等人2002)。 該方法最耗時的部分是更新P矩陣,因為其需要協方差矩陣的求逆。
通過K的特征分解可以顯著減少這種計算負擔,從而加速V的反演(Kang et al.2008; Lippert et al。2011)。 任何方陣都可以特征分解為特征向量(U)和特征值(D),因此K = UDU'。 從而,可以獲得V-1 = ZU [D×(σ2a/σ2e)+1]-1U'Z'σ-2e,并且所需的唯一反演是對角矩陣的元素。

BGS算法

貝葉斯吉布斯取樣(BGS)是由Geman和Geman(1984)提出的算法,其與EM算法類似地工作,一次更新一個參數。參數存儲在每個周期中,并在結束時取平均值。 BGS算法通常在靜止狀態(即熵)之前丟棄周期以提供最終估計的穩定性(所謂的“燒入”)。來自幾個周期的參數的分布稱為后驗分布,通常表示為p(θ| X)。在這種情況下,我們尋找的參數是θ= {b,u,σ2a,σ2}(給定我們所擁有的數據),它指的是我們的矩陣,因此X = {y,X,Z,K}。
貝葉斯方法的優點是它們最初包含了你對數據的一些期望,例如參數的概率分布。 Wang et al。 (1993)提出了第一個吉布斯采樣器算法來解決在繁殖上下文中的混合模型,其中系數遵循正態分布(如它們在REML中),并且方差分量遵循縮放的逆卡方分布(χ-2v,S)。這確保了變量分量的正估計。算法如下:
其中g * i =(ri-Ci,-ig-i)C-1 ii,W = [X,Z],并且方差分量的pri-形狀和自由度由S * ν,其中S * = 0.5×var(y)和ν = 5是合理的優先級(Morota et al。2014)。根據拉普拉斯的均勻無知原理,一些先驗者表示對預期響應的完全不一致。這些稱為平原,它們應該提供等效于REML的結果。使用平坦的先驗,設置S * = 0和ν* = -2(García-Cortés和Sorensen 1996)。使用再現內核的參數化希爾伯特空間(RKHS)是一種解決使用內核的混合模型的替代方法該過程遵循de los Campos等人提出的算法 (2010)使用內核的本征分解(即K = UDU')來獲得矩陣特征向量(U)和特征值對角矩陣(D)。因此,具有u?N(0,Kσ2a)的隨機項Zu可以被重新定義為具有δ?N(0,Dσ2a)的Z δ,其中Z * = ZU。
當多個內核參與同一模型(加性、顯性和上位核),RKHS通常優于傳統方法。 RKHS與BGS和REML框架兼容,它還允許混合模型的解作為特征向量的脊回歸,具有特殊的正則化(σ
=σ2e/σ2a D)。

全基因組回歸(WGR)算法

沒有親緣關系矩陣也有可能獲得BLUP估計的育種值和方差分量。當基因型信息可用時(de los Campos等人2013; VanRaden 2008)允許更可靠地推導育種值(Beradardo和Nyquist 1998),這是特別有用的。這些被稱為全基因組回歸(WGR)方法。用于WGR的方法是靈活的,使得它們可以適應超維問題,因為當模型具有比觀察值(p×n)更多的參數,而不必計算大矩陣(例如M'M)。
給定線性模型y = Xb +Mα+ e,WGR計算每個標記(mi)的加和值(αi),并通過取所有標記值的和獲得育種值。因此,育種值估計為u =Mα。然后,該過程將路徑編碼為{-1,0,1}或{0,1,2},表示{AA,Aa,aa},而回歸系數α的向量表示每個等位基因替換的加性值徐2013)。
簡單的WGR模型稱為脊回歸(RR)或Tikhonov正則化。這是包含p個隨機過程的高斯過程,其中p是模型中的標記數(p = m),其提供等價于使用添加的基因組關系作為核基質的先前方法的結果(VanRaden 2008; Morota et al。2014)。 Ridge回歸假設回歸系數是正態分布的,并為使用多重共線性提供了一個有趣的框架(Hoerl和Kennard 1970)。這是處理基因組數據的高度理想的屬性,當位于同一區域的多個標記攜帶相似的信息時。
大多數WGR方法試圖使由argmin(e'e +αα'α)表示的損失函數最小化。注意,該損失函數具有兩個項:殘差平方和(e'e)和復雜度項αα'α。系數的平方懲罰(αα'α)被稱為L2懲罰,而L1懲罰表示使用絕對和(α||α||)。 L1懲罰也被稱為最小絕對收縮和選擇算子(LASSO)損失(Tibshirani 1996)。
坐標下降有助于最小化上面提出的山脊和LASSO損失函數(Hastie et al。2005),這意味著回歸系數每次更新一次。 讓我們從最簡單的單變量解開始:普通最小二乘法(OLS)。 對于給定的單變量模型y = xb + e,回歸系數的OLS解為:

而對于相同問題的脊回歸解由下式給出:

其中正則化參數? 施加收縮。 LASSO單變量解法工作略有不同。 對于正OLS系數,LASSO解是:
如果LASSO解是負的,則將回歸系數設置為零。類似地,當OLS為負且LASSO分子由x'y +α給出時,當LASSO解是正數時,系數設置為零。因此,LASSO除了收縮之外還執行變量選擇,而脊不能提供零回歸系數。脊回歸和LASSO之間的中間模型稱為彈性網(Zou和Hastie 2005),其中正則化最小化L1和L2懲罰,單變量解是:
在確定單變量解之后,坐標下降算法如下。對于初學者,假設我們正在求解一個模型,其中唯一的固定效應是截距(μ),并且來自p個參數的omic數據由模型y =μ+ Xb + e的矩陣X表示。算法很簡單:將線性模型簡化為單變量版本(~yi = xibi + e),一次求解一個系數直到收斂。為此,必須適配除正被更新的一個變量之外的所有變量。因此,第i個參數的脊解為:

yi xi xi其中?yi表示除一個(xi)之外的所有參數的y。 Legarra和Misztal(2008)提供了一個有效的框架,以防止每個回歸系數X-ib-i的重新計算,兩步Gauss-Seidel殘差更新(GSRU)算法,其中殘差的向量有助于更換為?yi。第一步涉及使用當前版本的殘差來更新第i個回歸系數(bt + 1i):
這之后是殘差的后續更新:

正則化參數通常通過傳統機器學習框架中的交叉驗證來估計(Hastie等人,2005),而截距是由于其固定效應性質而唯一無正則化更新的系數(α= 0)。如果在每個回合中估計方差分量,則還可以將正則化參數更新為: =σ2e/σ2a。貝葉斯對應的脊回歸(BRR)通過吉布斯采樣器解決,提供幾乎相同的解決方案(de los Campos等人2013)。主要區別是基于抽樣的參數更新。 BRR算法進行如下:
使用GSRU解作為具有后續殘差更新的期望值從正態分布對回歸系數進行采樣:
然后,從縮放的逆卡方分布更新方差分量:
兩個模型通過將規則化設置修改為非高斯過程從BRR得到:BayesA和Bayesian LASSO。 BayesA(Meuwissen等人,2001)是BRR的特殊情況,其中每個標記具有其自己的變異(σ2bi=(b2 i + S * v *)/χ21+ v *),這意味著每個標記將具有唯一的正則化參數(Δi=σ2e/σ2)。
標記效應遵循t分布(厚尾)。來自BayesA的育種值比BRR更準確,但往往對先前的規范有偏見和敏感(Lehermeier等人2013; Gianola 2013)。
Park和Casella(2008)提出的Bayesian LASSO(BL)具有非常特殊的參數化,強加了收縮,但是與非貝葉斯對應物不同,它不能執行可變選擇。在BL中,從具有期望值σeφ/ bi和形狀φ2的反高斯分布對每個單獨參數(θi)的正則化參數進行采樣,使得標記效應的分布遵循拉普拉斯分布。
非高斯過程(例如BayesA,BL,LASSO)能夠捕獲大效應QTL比脊回歸和BRR(圖6),而內核方法甚至不分配值給每個制造商。 Zhang et al。 (2010a)提出了一個兩步法,將大效應QTL納入核方法,從而生成加權內核(也稱為性狀相關內核)。第一步包括擬合WGR以獲得每個標記物的回歸系數。第二步涉及在設計內核之前重新編碼編碼為{ - | b |,0,| b |}的等位基因,使得每個等位基因根據其與性狀的關聯而被加權。由各種方法(內核和回歸)提供的預測精度根據性狀的遺傳結構而改變(de los Campos等人2013),并且具有更現實假設的模型通常提供最準確的預測。雖然所有模型都可能提供穩健的預測,但尋找最佳方法可能需要育種人員通過交叉驗證來評估多個模型。

人們可能相信并非所有標記都有助于感興趣的性狀,但是收縮不會從模型中消除標記。有兩種方法來解決這個問題:使用L1損失或在L2模型中添加變量選擇項。事實上,前面提到的每個貝葉斯模型都有一個變量選擇對??應物:BayesA有BayesB(Meuwissen等人,2001),BRR有BayesCπ(Habier等人,2011),BL有一個由Legarra等人提出的擴展版本et al。 (2011)。 Meuwissen et al。 (2001)使用Metropolis-Hasting算法提出了變量選擇,這表明標記被隨機地包括在模型中。當新模型提供更好的可能性時,接受所提出的改變。 Meuwissen的方法是健壯的,但是計算成本高。或者,可以通過以下三種方法將有效的變量選擇結合到Gibbs樣本(O'Hara和Sillanp??2009)中:
隨機搜索變量選擇(George McCulloch 1993)。
無條件先驗(Kuo和Mallick 1998)。 3.吉布斯變量選擇(Dellaportas等人2002)。
表2總結了這一部分,顯示了育種值的計算,以幫助通過基因和WGR方法進行選擇。通過在基于核心的多基因術語條件下測試一個標記物來篩選全基因組的大效應QTL的程序稱為全基因組關聯研究(GWAS)。因為非高斯WGR方法能夠捕獲主要效應等位基因,所以這些方法可以直接用于執行GWAS。 LASSO和BayesCπ已被廣泛用于檢測QTL(Colombani等人2013; Fang等人2012; Li和Sillanp??2012; Yi和Xu 2008)。
此外,Legarra等人進行的比較研究(2015)指出這些方法優于傳統框架,這是基于比較零模型和完全模型的可能性。

數據質量控制和關聯分析

理解數量性狀的基本遺傳學為作物改良的策略提供了信息(Sonah et al。2014)。將基因和表型與分子工具相關聯的最基本的程序是找到與表型相關的標記,從而確定涉及哪些基因。不管遺傳資源(即種群類型),關聯研究具有四個基本步驟:表型分型,基因分型,作圖和驗證。驗證包括對為此目的特別設計的實驗群體(例如近等基因品系)進行表型分型,基因分型和作圖的前三個程序。因此,我們將只強調三個初始步驟。

表型

當性狀受許多基因座控制時,對環境變異的敏感性增加。外部刺激影響不同水平的不同基因座的遺傳表達。復雜性狀的基因表達,如產量和耐旱性,在整個基因組中是高度可變的(Guimar?es-Dias等2012; Le等2011)。在使表型中的環境噪聲最小化的背景下,對現場表型的研究旨在產生或改善高通量和高精度表型分型技術,但是各種來源的omic數據的整合主要用于改善非生物脅迫(Deshmukh等人2014)。
復制的使用總是非常需要的,因為具有多個觀察總是提高真實遺傳值的估計的準確性。可以使用空間統計進一步降低由于場變化引起的噪聲,例如克里金(Basso等人,2001),其允許調整現場試驗之間的空間相關性(Ba??nerjee等人2010; Zas 2006)。例如,Lado et al。 (2013)能夠通過使用具有移動平均協變結構的簡單混合模型通過空間調整控制場變化來提高小麥基因組預測的準確性。
克里金法控制場變化可以補充實驗設計和未復制的試驗(Banerjee等人2010; Lado等人2013)。表型數據包含遺傳信息,微環境和大環境變化,以及環境和遺傳因素之間的相互作用。對于克里金的這種應用,我們可以使用具有附加項的混合效應模型來定義場圖中的場相關。從而:
y = Xb + Zu + Iv + e,
其中觀察到的表型(y)是某些固定效應(Xb)的函數,例如塊或環境。遺傳效應(Zu)允許指定個體之間的關聯u?N(0,Kσ2a),其中K表示加性遺傳關系矩陣。場變化(Iv)項表示由空間核(例如高斯)定義的空間關系(即場中的圖之間的歐幾里得距離),使得v?N(0,Sσ2s)。殘差項(e)包含隨機誤差和高階相互作用。還有一種替代方法,假設殘差是相關的,使得e?N(0,Sσ2e),從而避免模型中的附加項(Iv)。當譜系和基因型信息稀缺時,空間變異的考慮在未復制的試驗(例如后代行)中特別重要。因此,遺傳學和環境之間的區別是一個復雜的問題,使用復制檢查可能是場變化的唯一真正的指示器。隨著環境噪聲的降低,基因型值在不同環境中具有更穩定的性能,這可以使用Pearson或Spearman相關性來測量。通過考慮場變化而提供的另一種改善措施是寬和狹義遺傳性的增加,其中預期增加的方差是由遺傳因素引起的。

基因分型

高通量基因分型技術已經在植物育種中變得非常流行(Jarquín等人2014; Sonah等人2014),通常具有差的基因分型質量和大量的缺失數據(Halperin和Stephan 2009),使得繪圖和選擇具有挑戰性(Jarquínet al。2014; Poland and Rife 2012)。在這種情況下,缺失基因座的準確插補和SNP miscall的良好校正對于強大的下游分析至關重要(Marchini和Howie 2010; Xavier等人2016)。植物育種中基因型插補的兩種人口方法是隱馬爾可夫模型(HMM)和隨機森林(Swarts等人2014; Rutkoski等人2013)。
HMM通常用于遺傳學和基因組學中用于馬爾可夫過程的隨機建模,例如單倍型的計算
。在遺傳學上,具有給定基因座m的兩個等位基因的二倍體生物體的三種可能狀態是:M1M1,M1M2和M2M2,忽略連鎖相。假設有序標記,HMM基于標記mt的轉變概率估計最可能的狀態路徑(即基因型),以改變給定先前標記mt-1的狀態。 HMM是插入缺失基因型的最常用方法。此外,Marchini和Howie(2010)顯示HMM可以提高全基因組關聯研究的功效和分辨率。
隨機森林是一種用于預測,分類和估算混合數據類型的非參數方法。它建立了決策樹預測器的組合,其中決策樹被自舉以產生構成訓練森林的隨機獨立向量。這對于插補無序標記特別有用。 Rutkoski et al。 (2013)報告隨機森林作為一種有希望的插入法在小麥基因分型測序(GBS)數據,和Xavier等。 (2016)表明隨機森林與大豆中的HMM一樣有效。對分析有重要影響的其他質量參數是分子標記的次要等位基因頻率(MAF)(Tabangin等人,2009)和標記物攜帶基因的能力。后者根據標記遺傳力(Forneris et al。2015)估計,當標記被視為分子表型時。它用于鑒定由于等位基因的偏向遺傳而不遵循孟德爾分離的標記(Glémin2010)。小等位基因對于群體分層非常重要。 Wen et al。 (2008)在評估中國393個地方品種和196個大豆種群的結構時發現多達9個亞種群。然而,低MAF在關聯分析中具有兩個主要缺點:(1)如果人們不知道亞群的存在,它可能增加假發現的速率;和(2)如果等位基因具有主要效應但僅存在于低頻率,則該特定基因將由于缺乏與其低信噪比相關的功率而變得不可檢測(Tabangin等人2009)。 Jarquínet al。 (2014)發現MAF閾值高達0.30提高了大豆中基因組選擇模型的預測準確性。

基因作圖

在基因作圖中看到的改進是機器學習涉及增強推理精度的罕見場合之一。之前討論了繪圖的原理,其中我們顯示標記和性狀之間的關聯可以通過標記提供的(限制)可能性的改善來估計,條件是多基因項(即加性細胞)亞種群的存在。來自隨機群體的早期繪圖研究忽略了群體結構,這可能導致大量的假發現(Xu和Shete 2005)。 Yu et al。 (2005)提出了一個混合模型框架,解釋背景遺傳學稱為統一混合模型(UMM),也稱為K + Q方法。在這種方法中,固定效應群體結構項(Q)與衍生自系譜,基因組數據或兩者的內核(K)的多態項互補。群體結構通常由來自軟件STRUCURE(Pritchard等人2000)或使用軟件EIGEN-STRAT(Price等人2006)計算的特征向量的群來定義。 UMM具有一些不期望的屬性,包括冗余(一旦從K提取Q的信息)和來自每個標記的方差分量的估計的計算負擔。
為了避免每輪計算混合模型,Aulchenko et al。 (2007)提出了使用混合模型和回歸(GRAMMAR)算法的稱為全基因組快速關聯的近似方法。作者提出擬合動物模型和分析殘留項作為非結構化表型,而不需要包括多基因項,使混合模型只需要解決一次。雖然方便快捷,原始的GRAMMAR方法提供了SNP效應的有偏估計。一些人提出了與原始算法的差異以克服這個限制,包括GRAMMAR-γ(Svishcheva等人2012)和BOLT-LMM(Loh等人2015)。由于其計算可行性,GRAMMAR通常是分析大量標記物的首選模型。在上一節中,我們提到使用Eigende-composition來有效地計算混合模型。 Kang等人(2008)提出了EMMA算法為K + Q模型提供一個計算解決方案,使用數值優化方法來搜索a?最大化REML。在這個算法中,Eigende composition在簡化似然函數的計算中起著主要作用。 EMMA算法成為單內核混合模型的大眾解決方案,在諸如rrBLUP,EMMREML和NAM的流行R包中實現(Endelman 2011; Akdemir和Jannink 2015; Xavier等人2015)。然而,EMMA在大型數據集中的聯合分析是不切實際的。為了克服在EMMA中看到的計算限制,一些人提出了稱為壓縮混合模型的近似方法。這些包括EMMA限制(EMMAX)算法(Kang等人,2010)和先前確定的群體參數(P3D)算法(Zhang等人,2010b)。 EMMAX和P3D產生用于個體群集的多項式項來壓縮K的信息。這些方法還假定全模式中的方差分量等于空模型,并且因此僅估計方差分量一次。多基因項的壓縮需要大量的信息損失,但是Q項有助于預先保存部分信息。其他人已經為沒有壓縮的混合模型提出了更有效的解決方案,也稱為精確方法。 Lippert et al。 (2011)提出了因子變換(FaST)算法,而Zhou和Stefins(2012)引入了全基因組高效混合模型關聯(GEMMA)算法。 GEMMA利用全排核,基因組關系矩陣(即使用所有特征向量),這提供了算法的穩定性和對混合的非常魯棒的控制。另一方面,FaST被設計為適應更大數量的具有降低等級核的個體,這也防止了下面討論的標記的雙重擬合。
一般來說,混合模型可以以合理的成本增加功率和預防假陽性,但這種方法也存在一些缺陷(Yang等人,2014),例如病例對照研究中的功率損失和(通常)雙重 - 將標記擬合到模型中,其中在完整模型中評估的標記也用于建立內核(基因組關系矩陣)。使用WGR作為GWAS方法可以很容易地滿足雙重擬合的限制,一旦每個標記效應被推斷,條件是所有其他參數。表3總結了主關聯算法的屬性。最近,一些人提出了更靈活的模型以放松由GWAS算法做出的假設并且處理復雜的結構化群體,包括下一代面板,例如多父親高級生成交叉(MAGIC)和嵌套關聯圖 - 平均(NAM)人群。經驗貝葉斯算法(Xavier等人2015; Wei和Xu 2016)努力通過將標記作為隨機效應來將背景噪聲收縮到零來進一步增加GWAS的功率和分辨率,還實現了一個滑動窗口來克服雙重通過從多基因項中移除局部標記來匹配標記。此外,如果任何分層因子是先驗已知的,該算法將標記重新參數化為單倍型,因此占據一定程度的上位性,從而放寬關于不同亞群中標記物和QTL之間的連鎖相的假設。圖7比較了GWAS算法。

結論

各種模型和算法都做出重要的假設。了解計算的工作方式可能有助于改進統計分析和決策。育種理論中的最穩定程序基于高斯過程,可以通過使用內核和回歸模型的混合模型計算。我們已經說明了當使用機器學習和混合模型的原理進行選擇,預測和映射以及推斷方差分量時的一些靈活性。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,250評論 6 530
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 97,923評論 3 413
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 175,041評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,475評論 1 308
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,253評論 6 405
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 54,801評論 1 321
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 42,882評論 3 440
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,023評論 0 285
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,530評論 1 331
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,494評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,639評論 1 366
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,177評論 5 355
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 43,890評論 3 345
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,289評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,552評論 1 281
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,242評論 3 389
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,626評論 2 370

推薦閱讀更多精彩內容