2018-11-01GWAS實戰(zhàn)(四)plink 進階之數(shù)據(jù)過濾

數(shù)據(jù)好不好,影響到結果的準確性,所以我們要來對數(shù)據(jù)進行過濾,過濾前,我們應該對數(shù)據(jù)的部分特征進行統(tǒng)計描述,以此為依據(jù)來進行過濾。

這里介紹的幾個指標:
1.individuals with high missing genotype rates (具有高缺失基因型率的個體)
2.missing genotype rate(缺失基因型率統(tǒng)計)
3.minor allele frequency (一個snp上最小等位基因頻率)
4.Hardy-Weinberg equilibrium failures(不符合哈德溫伯格平衡的(認為這個位點和群體結構有關))
5.Linkage disequilibrium based SNP pruning(基于連鎖不平衡篩選snp標記)

過濾具有高缺失基因型率的個體

這里主要是用一個mind 的參數(shù)


mind

--mind 之后的那個參數(shù)要自己設置的

plink --bfile core_v0.7 --mind 0.1 --make-bed --out test
result

這樣我就把83個個體過濾掉了

注意這個有個--geno 是對每個snp在所有個體中的缺失率進行過濾

missing genotype rate

主要是 --missing 這個參數(shù)
顯示缺失的統(tǒng)計結果

plink --bfile test --missing

會產(chǎn)生兩個文件


process

一個是imiss,記錄了樣本的missing data
一個是lmiss,記錄了snp的missing data

imiss

可以查看缺失率

lmiss

我們可以發(fā)現(xiàn)數(shù)據(jù)N_GENO 分別與之前的第一步的操作結果報告一一對應。

具體信息對應查看如下:


explain

Hardy-Weinberg equilibrium failures

哈迪-溫伯格定律

“哈迪-溫伯格定律”是指在理想狀態(tài)下,各等位基因的頻率和等位基因的基因型頻率在遺傳中是穩(wěn)定不變的,即保持著基因平衡。該定律運用在生物學、生態(tài)學、遺傳學。條件:①種群足夠大;②種群個體間隨機交配;③沒有突變;④沒有選擇;⑤沒有遷移;⑥沒有遺傳漂變。
——摘自百度

這一步是對每一個snp做哈迪-溫伯格檢驗,針對等位基因平率的(與下文的LD比較)

plink --file test --hardy
hardy

會產(chǎn)生一個report (.hwe)


hwe

我們來看一下
第一列 snp 所在染色體
第二列 snp 名稱
第三列 test的名稱
第四列 Minor allele code
第五列 Major allele code
第六列 具體數(shù)據(jù) 也就是 AA Aa aa 的個數(shù)
第七列 觀察到的2pq 的值
第八列 期望的2pq的值
第九列 對這個數(shù)據(jù)進行卡方檢驗,看顯不顯著

minor allele frequency

檢查等位基因頻率

plink --bfile core_v0.7 --freq
freq

產(chǎn)生一個.frq文件

result

第一列 snp所在的染色體
第二列 snp的名稱
第三列 最小等位基因
第四列 主要等位基因
第五列 最小等位基因平率
第六列 Non-missing allele count

Linkage disequilibrium based SNP pruning

連鎖不平衡 LD 過濾

這個是計算兩個標記間的連鎖率

連鎖不平衡 (linkage disequilibrium)是指在某一群體中,不同座位上某兩個基因同時遺傳的頻率明顯高于預期的隨機頻率的現(xiàn)象。HLA 不同基因座位的各等位基因在人群中以一定的頻率出現(xiàn)。簡單地說,只要兩個基因不是完全獨立地遺傳,就會表現(xiàn)出某種程度的連鎖。這種情況就叫連鎖不平衡。連鎖不平衡可以是同一條染色體上的不同區(qū)域,也可以是不同染色體上的。
--百度百科

師兄說了,如果是單標記回歸,可以不做,影響不大,最多影響速度,但是在多標記回歸算基因互作的問題中,應該要做刪選,因為不做的話會把連鎖的snp誤當做是基因互作。

如果做了LD,那么掃描出來的點可能很明顯,只有一個,如果沒有做LD,可能掃描出來的點是一團。

有兩種方法可以做,這里只說一種

plink --bfile core_v0.7 --indep-pairwise 50 5 0.5
LD-prune

會產(chǎn)生兩個文件,一個是plink.prune.in,一個是plink.prune.out

我不貼圖了,就是標記名字,

Each is a simlpe list of SNP IDs; both these files can subsequently be specified as the argument for a --extract or --exclude command.

這個文件是可以用來做刪選的參數(shù)的

plink --bfile core_v0.7 --extract plink.prune.in --make-bed --out pruneddata

這樣就LD過濾好啦

LD.png

會產(chǎn)生過濾好的結果

好啦,其實還有好多其他要檢測或者過濾的,不過這里介紹的是主要的一些,暫時用自然群體,也不考慮家系結構,這次寫了好多,也算是學到了一點點皮毛了。

最后編輯于
?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,119評論 6 531
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 98,382評論 3 415
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,038評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,853評論 1 309
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,616評論 6 408
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 55,112評論 1 323
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,192評論 3 441
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 42,355評論 0 288
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 48,869評論 1 334
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 40,727評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,928評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,467評論 5 358
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 44,165評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,570評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,813評論 1 282
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,585評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,892評論 2 372