Romero Navarro JA, Willcox M, Burgue?o J, et al. A study of allelic diversity underlying flowering-time adaptation in maize landraces. Nature Genetics, 2017, 49(3): 476–480. DOI: 10.1038/ng.3784.
摘要
馴化物種的地方品種(傳統品種)保留了有用的遺傳變異,但由于少數有用的等位基因與數百種不良等位基因之間存在遺傳聯系,它們尚未開發。我們整合了兩種方法來描述4,471個玉米地方品種的多樣性。
- 首先,我們繪制了控制緯度和海拔適應的基因組區域,并確定了1,498個基因。
- 其次,我們使用F-one關聯作圖(FOAM)來繪制控制開花時間的基因,跨越22個環境,并鑒定了1,005個基因。
總的來說,我們發現61.4%的與高海拔相關的單核苷酸多態性(SNPs)也與開花時間有關。超過一半與高度相關的SNP在大的結構變異(倒位,著絲粒和pericentromeric區域)內。組合的mapping結果表明,雖然花卉調節網絡基因對田間變異有很大貢獻,但超過90%的貢獻基因可能具有間接影響。我們的雙重策略可用于利用植物和動物的種植多樣性。
在線方法
表型數據分析。
為了估計地方品種親本的育種值,對于每個試驗,在ASREML(v.3.0)中使用限制性最大似然法擬合混合線性模型,使用后代的日歷天來雄性或雌性開花作為響應變量。模型包括檢查,測試器和混合的固定效果以及完整嵌套模型中的隨機加入效果。 此外,該模型包括行和列的隨機效應,使用行和列中數量級為1的自回歸模型來控制實驗噪聲作為場變化的乘積。 所有隨機效應都被認為是彼此獨立的。 使用的模型可表示如下:
基因分型。
使用ApeKI作為限制酶,使用每個測序板~96個個體的復制水平,使用基因分型 - 測序(GBS)21對用作男性親本的種質進行基因分型。使用Illumina HiSeq產生大約8-109個測序讀數用于地方品種,并且使用TASSEL46將序列讀數與另外40,000個玉米品系一起作為GBS構建2.7的一部分進行分析。平均而言,每個人和每個站點的缺失數據為0.5(補充圖10)。通過比較被叫位點的深度分布,每個位點的中值讀數為2(補充圖11)。對于關聯分析,使用BEAGLE4(參考文獻22)估算缺失數據,已顯示其在玉米雜合材料中產生最佳的當前準確度47。我們觀察到插補精度,R2 = 0.68,插補后沒有丟失數據。在插補后,過濾SNP的次要等位基因頻率> 1%,在基因組中產生大約500,000個雙等位基因標記。
多樣性評估。
對于Mantel檢驗23,我們根據來自種質(緯度,經度和海拔)的地理數據計算了成對歐幾里德距離矩陣。我們估計并測試了高度,緯度和經度的單獨歐幾里德矩陣以及一個聯合矩陣。使用TASSEL從30,000個非插入標記的全基因組隨機樣本估計遺傳距離矩陣。遺傳矩陣與關節或高度歐氏距離矩陣之間的相關性為0.46,P值估計基于1,000個排列。緯度和海拔高度分別與遺傳距離有0.04和0.07的相關性。使用R庫“ade4”(參考文獻48)進行Mantel測試。使用R中的“cmds”函數對遺傳距離矩陣進行MDS(多維縮放)。
重組
為了估計LD,需要具有精確雜合子調用的定相標記。覆蓋深度的分布(補充圖11)顯示我們組中的大多數GBS標記具有恰好1的深度,其中一半標記具有等于或大于2的深度。在沒有相位或足夠深度的情況下對于所有站點,我們使用非推算的SNP標記估計了類似LD的統計量。為了解釋缺乏相位信息和雜合子調用不足,我們的類似LD的統計量估計了100個位置非重疊窗口的純合標記與軟件TASSEL上的LD功能之間的相關性。對于GBS標記,我們發現這是具有信息相關性的最小窗口大小。我們對LD的顯著增加感興趣,這些增加影響了人群中多個人的大區域。因此,我們通過取中值將相關性匯總到1-Mb區域。為了比較LD和重組值,我們估計了1-Mb滑動窗口之間的相關性(i)log10(中值LD估計值),(ii)使用美國和中國NAM估算的中值交叉概率的對數值種群24,和(iii)中值種群重組率(rho)的對數估計改良品系和地方品種Hapmap2項目24。我們的LD估計值顯示與基因密度(r = -0.57)和NAM交叉概率8(r = -0.45)呈負相關。我們觀察到我們的LD樣統計量和歷史重組的群體遺傳估計值(rho)之間存在適度的負相關(r = -0.33)24,25。基于全局中值LD的斜率變化來定義高LD區域(補充圖12)。因此,高LD區域是具有中值LD> 0.01的那些區段。總共有256個高LD區域,占基因組的7.8%。在候選基因中,只有PhyB1(植物色素B1),Gl15(Glossy15)和ZCN13屬于高LD組,因此被排除在進一步的基因水平分析之外。
開花時間全基因組關聯和基因組預測。
使用線性混合模型49,50對所有試驗分兩步進行關聯分析。對于每個性狀(雄性和雌性開花的天數),擬合兩個模型,一個具有特征“最佳線性無偏預測”(BLUP)作為響應變量,另一個具有相同BLUP的標準化值。雖然可以使用以生長度天數形式的累積熱單位來標準化不同地點的作物物候數據集,但所使用的標準化包括減去試驗的平均值并除以相應的s.d.這樣做是為了評估結果的一致性,因為各種試驗中的性狀差異不均勻。兩個GWAS模型的P值之間的相關性為0.84。
第一步模型包括試驗的固定效應(分類),10個MDS權重(數值)形式的種群結構,共同解釋了大約13%的遺傳方差和10.6%的表型變異,以及雜交的影響用作每個種質雜交的父母。相關性的隨機效應以親屬矩陣的形式被添加到兩個模型中。使用與MDS權重相同的SNP子集估計親屬矩陣。使用R軟件包EMMREML擬合混合模型。在擬合第一模型后含有殘差的向量在第二步模型中擬合作為單標記分析的響應變量。使用R擬合模型,標記嵌套在試驗水平內。
使用的模型方程是
其中是響應變量,
是總體平均值,Ti是第i次試驗的效果,Hij是第i次試驗中第j個測試者的效果,Qijk是包含10次的人口結構效應來自MDS,Zu的權重,其中u是未知隨機多基因效應的大小為n(個體數)的向量,其具有均值為零的分布和
的協方差矩陣,其中K是具有元素的共同祖先矩陣從30,000個隨機SNP計算kij(i,j = 1,2,... n),并且eijk是包含殘差的矢量。
在關聯模型的第二步中,來自第一模型的殘差被擬合為以下模型中的響應變量
其中Yi是來自先前模型的殘差,S是嵌套在試驗t中的SNP效應。該模型對零假設使用F檢驗,表明在所有試驗中每個SNP的效果為0。另一種假設是SNP對任何試驗都有影響。測試這一假設的原因是每個SNP的影響可以并且經常會改變價值和方向。這是所有試驗中不同頻率的等位基因分離的結果,以及測試的SNP與因果多態性之間的相位變化。我們觀察到與P值的預期分布的顯著偏差(補充圖13);因此,考慮到錯誤的發現率,我們只考慮基于P值的SNP的前1%顯著,其中-log10(P值)均為> 18。我們推斷候選基因的顯著性將取決于當地LD和基因型覆蓋率;因此,圍繞候選基因的較高比例的顯著SNP將指示基因本身的關聯而不是整個LD區域或由于更高的基因型覆蓋。因此,我們研究了候選基因上游和下游50-kb區域內的SNP顯著關聯,并使用R包GenomicRanges將SNP分配到最近的基因。
使用軟件GAPIT進行全基因組預測。每個試驗運行模型,并通過在每個試驗的10個重復中進行五重交叉驗證來測量準確度。每個特征和試驗運行兩個模型。【使用不同分不的SNP獲取G矩陣】一個模型使用親屬矩陣,其針對888個相關基因組區域中的每一個估計具有一個SNP,另一個模型使用714個均勻分布的隨機SNP,并且第三個模型使用30,000個隨機SNP來估計親屬矩陣。所有模型都包括十個MDS權重以考慮人口結構。
全球范圍內與海拔和緯度的關聯。
我們有興趣了解對開花時間變化以及高度和緯度適應性做出貢獻的基因組區域。我們使用廣義線性模型進行全基因組關聯,其中高度和緯度作為響應變量和標記,以1%的頻率過濾,作為解釋變量。與使用地理學作為關聯研究中的響應變量的其他繪圖研究一致,具有主成分權重形式的種群結構的協變量的模型,以及包括親屬矩陣或親屬和主成分權重兩者的混合線性模型,顯示非常有限的關聯(補充圖14)。這主要是由于當地適應與人口結構之間的高度協方差,因為當地適應的選擇導致了人口結構。這意味著考慮局部適應的模型降低了假陽性率,但也顯著增加了假陰性率。為了從廣義線性模型的結果降低假陽性率并使用額外的獨立信息建立生物學意義的顯著性閾值,我們使用最顯著的開花時間GWAS SNP估計重疊率。重疊率被定義為共享的雄性和雌性頂部開花時間SNP與高度或緯度之間的重疊SNP的集合除以跨越顯著性閾值的集合的并集。換句話說,假設開花時間相關的SNP代表我們當前最佳的真陽性候選者,重疊率用于最大化P值閾值的真陽性,使假陰性最小化。因此,估計百分位數的總體比率在0.001和0.010之間。例如,對于第一個分位數閾值(0.001),海拔高度的重疊率對應于與前5,000個開花時間SNP重疊的前0.001個分位數(大約500)的SNP數除以開花的總和。 - 時間SNP和該分位數處的高度SNP。從重疊率結果中選擇的顯著性閾值(補充圖5)是高度的0.005百分位數(關聯SNP的前0.5%,-log10(P值)> 208.2;補充表6)和緯度的0.01百分位數(關聯SNPs的前1%-log10(P值)> 61.63;補充表7)。在補充圖5中可以觀察到,在相同的分位數值上,與具有緯度的SNP相比,海拔與開花時間相關的SNP具有顯著更高的重疊,可能是由于地方品種主要來自非光周期誘導位置。