研究生你必須知道的幾種數據分析方法

近幾天你是否被世界杯刷屏,話說他,荷蘭人,45歲,因喝醉酒買了德國7-1巴西,200歐元,6500賠率,創世界杯單場最高金額1300000 歐元,折合1100W人民幣。

理工男的直覺告訴明明同學是這樣的,他肯定學過數據分析,對德國和巴西歷史進球和比賽結果加上每個球隊球員的表現進行建模,得出一個預測模型,然后把本屆每個國家球員素質,心里以及他們的社交什么的因素帶入模型,然后就預測出本屆的比分7-1(好了,我編不下去了)。由此可見數據分析的重要性。在研究生博士生階段,你的數據分析做的好,那么你的paper發的是杠杠的。今天明明同學就給大家分享研究生階段你必須了解的一些數據分析方法。

方差分析

方差分析是最常用的一種分析方法,用于兩個及兩個以上樣本均數差別的顯著性檢驗。

應用條件

1、各樣本是相互獨立的隨機樣本

2、各樣本均來自正態分布總體

3、各樣本的總體方差相等,即具有方差齊性

方差分析分為單因素多因素方差分析,多因素方差分析又有含交互作用無交互作用的兩種。

單因素方差分析是檢驗同一因數下不同水平之間的顯著性。例如光照時間對苗木生長是否有影響,那么因素就是光照時間,水平可以有光照2h、4h、6h、8h等。檢驗目的是4種不同的光照時間對苗木的生長是否有差異。

雙因素方差分析是檢驗多因素多水平下的顯著性。其中不含交互作用是指某一因素對其他因素沒有影響,即其他因素固定,某一因素不同水平之間均數的差別。交互作用是指某因素的單獨效應,隨另一因素水平而變化,且不能用隨機誤差解釋。

步驟

1、樣本是否正態分布檢驗

2、樣本方差齊性檢驗

3、提出原假設:H0——無差異;H1——有顯著差異,(交互作用的假設H03和H13)

4、選擇檢驗統計量:方差分析采用的檢驗統計量是F統計量,即F值檢驗

5、計算檢驗統計量的觀測值和概率P值

6、給定顯著性水平,并作出決策

7、如果有顯著差異,需要進行多重比較

關于方差分析的方法在微信公共號"畢業零距離"里種介紹了三種方法即:

《如何用EXCEL做方差分析》、《如何用SPSS做方差分析》、《如何用R語言做方差分析》。有不懂的隨時私信明明同學。

回歸分析

回歸分析(regression analysis)是確定兩種或兩種以上變量間相互依賴的定量關系的一種統計分析方法,是一種預測性的建模技術,它研究的是因變量(目標)和自變量(預測器)之間的關系,例如不同的施肥量對苗木高生長的關系、中國人的消費習慣對美國經濟的影響等。其又分為線性回歸分析和非線性回歸分析。

應用條件:

和方差分析一樣,數據必須滿足獨立、正態、方差齊性。

回歸分析研究的目的:

(1)確定Y與X間的定量關系表達式,這種表達式稱為回歸方程;

(2)對求得的回歸方程的可信度進行檢驗;

(3)判斷自變量X對因變量Y有無影響;

(4)利用所求得的回歸方程進行預測和控制。

回歸的類型有:

1、Linear Regression線性回歸,2、Logistic Regression邏輯回歸,3、Polynomial Regression多項式回歸,4、Stepwise Regression逐步回歸等常見回歸模型。

步驟

1、制作散點圖,判斷變量關系(簡單線性、非線性等);

2、求相關系數及線性驗證;

3、求回歸系數,建立回歸方程;

4、回歸方程檢驗;

5、參數的區間估計;

6、預測;

關于回歸分析的做法,我們以后會推出相應的教程,加大家如何使用EXCEL、SPSS、和R語言做回歸分析。

判別分析

判別分析又稱“分辨法”,是在分類確定的條件下,根據某一研究對象的各種特征值判別其類型歸屬問題的一種多變量統計分析方法。

判別分析的目的

解決的問題是在一些已知研究對象已經用某種方法分成若干類的情況下,確定新的樣品屬于已知類別中的哪一類。他用途廣泛,如動植物分類、醫學疾病診斷、社區種類劃分等。

判別分析滿足的條件:

1、每一個判別變量都不能是其他判別變量的線性組合

2、各個判別變量之間具有多元正態分布,即控制N-1個變量為固定值時,第N個變量滿足正態分布

3、滿足②條件時,使用參數法計算判別函數,否則使用非參數法計算判別函數。

判別分析的方法有

Fisher判別(屬于確定性判別)包括距離判別、線性判別、非線性判別和典型判別。

Bayes判別(屬于概率性判別)


關于判別分析的做法,我們以后會推出相應的教程。

聚類分析

聚類分析的目的

是把分類對象按照一定規則分成若干類,這些類不是事先設定的,而是根據數據的特征確定的。在同一類中這些對象在某種意義上趨向于彼此相似,而在不同類中對象趨向于彼此不相似。

聚類分析的方法:

系統聚類法、快速聚類法、模糊聚類法。

系統聚類

常用的有如下六種:

1、最短距離法;2、最長距離法;3、類平均法;4、重心法;5、中間距離法;6、離差平方和法

快速聚類常見的有K-means聚類。

所有聚類的基本原則都是:

希望族(類)內的相似度盡可能高,族(類)間的相似度盡可能低(相異度盡可能高)。

主成分分析

主成分分析,是考察多個變量間相關性一種多元統計方法,研究如何通過少數幾個主成分來揭示多個變量間的內部結構,即從原始變量中導出少數幾個主成分,使它們盡可能多地保留原始變量的信息,且彼此間互不相關。

進行主成分分析主要步驟:

1、將原始數據標準化,以消除變量之間在數量級和量綱上的不同。

2、求標準化的相關矩陣。

3、求相關矩陣的特征值和特征向量。

4、計算方差貢獻率和累計方差貢獻率,每個主成分的貢獻率代表了原始數據總信息量的百分比。

5、確定主成分。

6、用原指標的線性組合來計算各個主成分的得分。

7、綜合得分,然后進行得分排序。

在R語言和SPSS中很容易實現主成分分析。

有任何問題可以隨時私信明明同學,幫助你解決數據分析的難處。

?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,488評論 6 531
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,034評論 3 414
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 175,327評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,554評論 1 307
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,337評論 6 404
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 54,883評論 1 321
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 42,975評論 3 439
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,114評論 0 286
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,625評論 1 332
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,555評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,737評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,244評論 5 355
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 43,973評論 3 345
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,362評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,615評論 1 280
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,343評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,699評論 2 370

推薦閱讀更多精彩內容