寫在前面
周末在清華MEM連上了2天定量分析課程,感覺受益頗深。定量分析是有一套系統化的、嚴謹的方法去挖掘數據的內在關系、并通過嚴謹的檢驗方法來印證最初的假設、最終發現新的現實規律來指導后續的工作。也就是一個從數據(事實)中獲取信息(知識)的過程。
MINITAB
一個統計分析軟件,使我們做數據定量分析的主要工具,可以借助它來幫助我們描述數據、探索數據的關聯、最終檢驗(確定)這種關聯。有30天試用期。
箱線圖Box-Plot
箱線圖從上到下的幾個點分別為:max(最大值)、1st quarter(四分位數)、median(中位數)、3rd quarter(四分位數)、min(最小值),可能還會包含工具幫我們識別出來的singular point(奇異點)。圖形有點類似K線,但是表示的意義不一樣。如果按照箱線圖的規則去定義K線或許能讓投資者了解到交易價格的分布,而不是僅僅關注價格。
使用場景:給定了幾個不同品牌地毯耐用度(平均壽命)的測量數據,如何去判斷哪種比較耐用呢?箱線圖可以幫助我們直觀的感受幾組數據,比單單從平均值來判斷更加全面。
minitab中的位置:圖形->箱線圖
直方圖Histogram&正態分布
直方圖很早就一直在接觸,能夠反映樣本值在不同區間的分布情況。我們可以把它用在判別給定數據是否符合正態分布上。現實生活中很多東西都是符合正態分布的,結合直方圖,我們通過觀察可以識別數據中的一些問題。
使用場景:課上有這樣一個例子,一個科學家懷疑一家面包店偷工減料,這家面包店聲稱自己用20直徑的模具做面包。科學家采集了一定量的數據,發現平均值明顯小于20,于是找到了面包師,面包師不服,要求重新取樣來統計,第二次的平均值超過了20。
分別把兩次數據的制作成直方圖來看,發現第一次的數據基本符合正態分布 ,而第二次的數據像是正態分布的右半段。推測:面包師很可能對第二次的數據做了手腳,把直徑大于20的面包單獨挑了出來。
minitab中的位置:圖形->直方圖
正態性檢驗
除了直接從直方圖中觀察數據是否符合正態分布,我們也可以借助minitab的正態性檢驗來做。
使用場景:人工降雨是否有效?隨機選取了52片云彩,26次實施人工降雨、26次不實施。分別記錄降雨量,用箱線圖和直方圖來看,可以大概看出人工降雨會有一些優勢。
為了更加深入發掘降雨量的規律,我們先對兩組數據分別進行正態性檢驗
圖上可以看到,兩組數據正態分布的假設p值都<.005,假設不可信。兩組數據都不符合正態分布。
minitab中的位置:統計->基本統計量->正態性檢驗
Box-Cox變換
Box-Cox變換是統計建模中常用的一種數據變換,用于連續的響應變量不滿足正態分布的情況。Box-Cox變換,變換之后,可以一定程度上減小不可觀測的誤差和預測變量的相關性。我的理解是這樣的:真實世界中的很多誤差(殘差)都是遵循正態概率分布的,但是我們在觀測計量某種數據的時候是在用人類文明發展過程中創造出來的單位(尺度)來度量,最終數據按照人所方便理解的形式被測量出來,但這兩者其實有某種數學上的聯系。Box-Cox變換就是試圖找到這種聯系。
還是上面人工降雨的例子,Box-Cox分析圖如下。可以看出95%置信區間在-0.08到0.17之間,這里可以用0取整。代入上面公式,可以用log來做變換。
經過變換后P值較大,無法拒絕兩組數據符合正態分布的假設。
這個時候我們再用箱線圖去比較兩組數據,會更加的清晰和直觀。
minitab中的位置:統計->控制圖->Box-Cox變換。
結語
今天就先寫這些,因果關系的論證、假設檢驗以及回歸分析與預測的一些方法,后面再總結。