- Piepho HP, Richter C, Williams E. Nearest neighbour adjustment and linear variance models in plant breeding trials. Biometrical J. 2008;50:164–89.
本文綜述了最近鄰分析的方法,適用于一維的局部趨勢。這樣的方法通常用于植物育種和品種測試。重點是簡單的差分方法,包括第一個差異和Papadakis方法。我們討論這些方法的混合模型表示觀察數據的規模。與差異相比,建模觀察數據具有許多實際優點,例如方便地計算調整的品種平均值的設施。大多數模型考慮涉及線性方差協方差結構,可以表示為狀態空間模型。使用三個數據集來例示所審查的方法和模型。
新作物品種和育種品系的評價需要在跨多個環境重復的田間試驗中進行測試。通常,測試的品種數量很大,通常達到超過100個條目。在早期生成試驗中,植物材料可能是如此有限,以至于難以完全重復,因此經常使用具有重復檢查例如增強設計的設計(Federer,1961,2002; Williams和John,2003)。在后代和用于釋放的品種中,具有兩到四個重復的重復試驗是常規。由于大量條目,某種形式的不完全區組在兩種情況下都是常見的,優選使用諸如a-designs的可分辨設計(John和Williams,1995)。最近,對用于分析產量試驗的地質統計方法的興趣增加,并且可以考慮這樣的分析選項來優化設計(Williams等人,2006; Cullis等人,2006)。本文涉及最近鄰居調整(NNA),一種特殊類型的地球物理分析現場試驗。假設根據某種區組設計布置了試驗,并且每個塊執行空間調整。我們的重點是一維調整,假設空間趨勢主要是在一個方向,這將是這樣的情況,當塊已經被定向為與任何主要趨勢正交,并且由等間隔的小區的單個陣列組成,如許多重要作物,最著名的是谷物,其中地塊長而薄。一維分析類似于具有對應于小區的空間位置的時間點的時間序列分析。我們的基本模型可以寫為vj =ltbejTttjtej; e1,其中繪小區(j = 1,2,...,n)按照場次序索引,vj是第j個小區上觀察到的產量,l是截距,bjjjj是測試的品種對j的影響第i個品種生長在第j個小區上,tj是局部趨勢,ej是測量誤差。本文考慮的模型在tj和ej的假設不同。雖然我們最初通過相關聯的計算分析方法來激勵一些模型,但是應當理解,模型選擇優先于特定計算方法的選擇。自從Papadakis(1937)的開創性工作以來,NNA的想法已經引起了相當大的關注,例如在Bartlett(1978)和Wilkinson et al。 (1983)。已經提出了許多擴展和修改。基本思想是通過從相鄰小區中減去一些觀測值的函數來調整繪小區值,假設該操作至少大致消除了局部趨勢。對于Papadakis方法,第j個小區的調整采用形式
其中b是通常不遠離統一的回歸系數。方程(2)可以通過不同的模型來證明,如本文所述。在其最簡單的形式中,Papadakis方法取b = 1,因此通過相鄰平均值的減法獲得調整(Wilkinson等人,1983)。此方法等效于分析繪制值之間的第二個差異,由。或者,可以通過幾種方法之一迭代地確定b的適當估計(Wilkinson等人,1983),或者可以將相鄰小區的平均值用作協方差迭代分析中的協變量(Wilkinson,1983; Stroup等人al。,1994; Wu et al。,1998)。這些方法已經被幾家植物育種公司常規使用。例如,一些德國植物育種者使用軟件包ANOFT(Schwarzbach,1984),其基于(2)以b = 1執行NNA。在該包中實施的方法采用迭代算法以通過最小二乘估計參數,假設獨立的第二個差異。 AN-OFT內核也成為AGROBASE Generation II軟件(www.agronomix.com)(E. Schwarzbach,2007,和D. K. Mulitze,2007,personal communication)的一部分。 NNA的另一個選擇是通過第一差異去除趨勢rj = vj + 1?vj。
第一差異在誤差自由度方面比第二差異更便宜。 Wilkinson等人的第二個差異的建議。 (1983)在很大程度上是由他們對澳大利亞品種試驗數據庫的表現推動的,而基于英國品種試驗的經驗推薦了第一個差異和相關的線性變異模型(Williams,1986)。在那個階段(可能還是這種情況),澳大利亞的數據往往比英國更加可變,并且更多地用于二次差分而不是首次差分。我們認為,隨著溫和的趨勢,似乎在歐洲條件下盛行,使用第一差異就足夠了。第一個差異已經被幾個作者提出,包括Besag和Kempton(1986),Gleeson和Cullis(1987),Cullis和Gleeson(1991),Stroup和Mulitze(1991),Kempton等, (1994),Wu et al。 (1998),和Wu和Dutilleul(1999)。差分是ARIMA或Box-Jenkins模型的非常全面的機器的一部分,在時間序列分析中非常流行,其中第一差異對應于集成誤差過程。這些模型已經在現場試驗的背景下廣泛研究(Gleeson和Cullis,1987),并且已經提出了對二維的擴展(Cullis和Gleeson,1991)。對于一個非常易于訪問的帳戶,請參閱Gleeson(1997)。最近,這些作者中的一些已經放棄了差分的想法,傾向于更復雜的模擬非平穩場趨勢的方法,例如。對大規模趨勢(Gilmour等人,1997)和平滑樣條的隨機效應的加法(Verbyla等人,1999)。雖然這些更復雜的方法具有其優點,但是它們在常規應用中更難以使用,因為在產生最終分析之前需要采取幾個模型選擇步驟,并且用于競爭地質統計模型和方法的最優模型選擇是一個微妙的任務(Huang和Chen,2007)。相比之下,第一個差異的方法具有簡單的優點,是相當穩健和有效的(Baird和Mead,1991),在實踐中工作良好(Wu等人,1998; Wu和Dutilleul,1999)。第一個差異與威廉姆斯(1986)和隨機游走模型(Piepho和Williams,2007; Lee和Piepho,2007)提出的線性方差模型密切相關,Piepho和Ogutu是一種特殊的狀態空間模型。這種關系可以用于將等價模型擬合到原始數據而不是第一差異。類似地,可以通過迭代擬合協方差模型的分析來實現b 6 = 1的Papadakis方法,該協方差模型將相鄰小區的平均值作為協變量(Wilkinson,1983; Stroup等人,1994; Wu等人。,1998)或通過擬合一個特定的狀態空間模型,如本文所示。將鄰域模型擬合為觀測數據而不是第一或第二差異具有許多優點,包括便利地進行品種平均值的成對比較和處理缺失觀測的容易性的便利。此外,擴展模型是直截了當的,特別是當需要考慮除了土壤趨勢之外的多個變化來源以及當需要計算調整的方法時,可能考慮協變量。本文的目的是通過專門的擬合算法提供對NNA的一些看似不同的方法的統一評論。我們的論文強調了明確制定統計模型的優點,而不僅僅是為NNA提供算法。我們強調的方法來擬合模型到觀察數據,而不是差異數據。我們的審查主要集中于在混合模型框架中產生線性期望和線性方差 - 協方差結構的方法。
唯一的例外是具有b 6 = 1的Papadakis方法,其對應于非線性模型,盡管在b上有條件地是線性的,其可以在擬合中利用。方差協方差結構中的線性是與通常使用中的許多其他空間模型相比的顯著特征(Schabenberger和Gotway,2005)。我們展示了當b = 1時,如何使用線性模型包來非迭代地實現Papadakis方法。我們將討論這種非迭代方法如何與Schwarzbach的迭代方法中使用第二個差異相關1984)。接下來,將示出在簡單混合模型中如何考慮由測量誤差引起的第一和第二差中的隨機依賴性,從而有助于實際中的路由使用。利用與線性方差模型(Williams,1986)和隨機游走的密切聯系,將展示如何在不實際計算第一或第二差異的情況下實現最接近的鄰近調整。最后,證明了如何通過非線性最小二乘法來實現用于b 6/1的Papadakis方法,以及如何解釋非線性混合模型框架中的變量的誤差,再次利用與狀態空間模型的聯系。三個例子用于說明所提出的方法的范圍。第一個例子是一個小的人工數據集,而第二個數據集來自一個更大的實驗(Besag和Kempton,1986)。使用小數據集以便說明NNA的不同方法的計算步驟。真實數據集用于舉例說明一些更復雜的模型,并證明空間分析的模型選擇需要一些謹慎。來自真實實驗的第二個例子是為了顯示如何將空間分析容易地整合到大量試驗的常規分析中。我們把注意力集中在一維調整上。為了簡化說明,我們的一些方程考慮了單個小區塊的情況,但是擴展到幾個塊是直接的,并且事實上在示例中使用。塊可以與字段中的單列小區相同,或者列可以被劃分為幾個塊,使得塊是連續的,但是針對趨勢的調整不會跨越塊延伸。根據隨機化結構,塊可以對應于可分辨設計的不完全塊,或者它們可以對應于隨機完全塊設計的完全重復。這一審查部分是由一些植物育種公司表示希望從傳統迭代NNA遷移的動機? la Papadakis到一個更強大的完全混合模型分析與本地趨勢的空間組件。這樣的分析框架非常靈活,例如允許包含用于關聯映射的混合模型組件(Stich等人,2008)和利用譜系關系來預測育種值(Stroup和Mulitze,1991; Piepho等人,2008) 。