數(shù)據(jù)好不好,影響到結果的準確性,所以我們要來對數(shù)據(jù)進行過濾,過濾前,我們應該對數(shù)據(jù)的部分特征進行統(tǒng)計描述,以此為依據(jù)來進行過濾。
這里介紹的幾個指標:
1.individuals with high missing genotype rates (具有高缺失基因型率的個體)
2.missing genotype rate(缺失基因型率統(tǒng)計)
3.minor allele frequency (一個snp上最小等位基因頻率)
4.Hardy-Weinberg equilibrium failures(不符合哈德溫伯格平衡的(認為這個位點和群體結構有關))
5.Linkage disequilibrium based SNP pruning(基于連鎖不平衡篩選snp標記)
過濾具有高缺失基因型率的個體
這里主要是用一個mind 的參數(shù)
--mind 之后的那個參數(shù)要自己設置的
plink --bfile core_v0.7 --mind 0.1 --make-bed --out test
這樣我就把83個個體過濾掉了
注意這個有個--geno 是對每個snp在所有個體中的缺失率進行過濾
missing genotype rate
主要是 --missing 這個參數(shù)
顯示缺失的統(tǒng)計結果
plink --bfile test --missing
會產(chǎn)生兩個文件
一個是imiss,記錄了樣本的missing data
一個是lmiss,記錄了snp的missing data
可以查看缺失率
我們可以發(fā)現(xiàn)數(shù)據(jù)N_GENO 分別與之前的第一步的操作結果報告一一對應。
具體信息對應查看如下:
Hardy-Weinberg equilibrium failures
哈迪-溫伯格定律
“哈迪-溫伯格定律”是指在理想狀態(tài)下,各等位基因的頻率和等位基因的基因型頻率在遺傳中是穩(wěn)定不變的,即保持著基因平衡。該定律運用在生物學、生態(tài)學、遺傳學。條件:①種群足夠大;②種群個體間隨機交配;③沒有突變;④沒有選擇;⑤沒有遷移;⑥沒有遺傳漂變。
——摘自百度
這一步是對每一個snp做哈迪-溫伯格檢驗,針對等位基因平率的(與下文的LD比較)
plink --file test --hardy
會產(chǎn)生一個report (.hwe)
我們來看一下
第一列 snp 所在染色體
第二列 snp 名稱
第三列 test的名稱
第四列 Minor allele code
第五列 Major allele code
第六列 具體數(shù)據(jù) 也就是 AA Aa aa 的個數(shù)
第七列 觀察到的2pq 的值
第八列 期望的2pq的值
第九列 對這個數(shù)據(jù)進行卡方檢驗,看顯不顯著
minor allele frequency
檢查等位基因頻率
plink --bfile core_v0.7 --freq
產(chǎn)生一個.frq文件
第一列 snp所在的染色體
第二列 snp的名稱
第三列 最小等位基因
第四列 主要等位基因
第五列 最小等位基因平率
第六列 Non-missing allele count
Linkage disequilibrium based SNP pruning
連鎖不平衡 LD 過濾
這個是計算兩個標記間的連鎖率
連鎖不平衡 (linkage disequilibrium)是指在某一群體中,不同座位上某兩個基因同時遺傳的頻率明顯高于預期的隨機頻率的現(xiàn)象。HLA 不同基因座位的各等位基因在人群中以一定的頻率出現(xiàn)。簡單地說,只要兩個基因不是完全獨立地遺傳,就會表現(xiàn)出某種程度的連鎖。這種情況就叫連鎖不平衡。連鎖不平衡可以是同一條染色體上的不同區(qū)域,也可以是不同染色體上的。
--百度百科
師兄說了,如果是單標記回歸,可以不做,影響不大,最多影響速度,但是在多標記回歸算基因互作的問題中,應該要做刪選,因為不做的話會把連鎖的snp誤當做是基因互作。
如果做了LD,那么掃描出來的點可能很明顯,只有一個,如果沒有做LD,可能掃描出來的點是一團。
有兩種方法可以做,這里只說一種
plink --bfile core_v0.7 --indep-pairwise 50 5 0.5
會產(chǎn)生兩個文件,一個是plink.prune.in,一個是plink.prune.out
我不貼圖了,就是標記名字,
Each is a simlpe list of SNP IDs; both these files can subsequently be specified as the argument for a --extract or --exclude command.
這個文件是可以用來做刪選的參數(shù)的
plink --bfile core_v0.7 --extract plink.prune.in --make-bed --out pruneddata
這樣就LD過濾好啦
會產(chǎn)生過濾好的結果
好啦,其實還有好多其他要檢測或者過濾的,不過這里介紹的是主要的一些,暫時用自然群體,也不考慮家系結構,這次寫了好多,也算是學到了一點點皮毛了。