Chapter 4 Sampling And Sample Distribution
本篇是第四章,內(nèi)容主要是抽樣方法與抽樣分布。這一章內(nèi)容比較多(從抽樣方法一直到許多分布函數(shù),尤其是介紹了四個(gè)重要分布——正態(tài)分布、卡方分布、t分布、F分布,以及部分統(tǒng)計(jì)推斷的內(nèi)容)。
1.抽樣方法
抽樣調(diào)查的概念前面已經(jīng)有所涉及到,這里就不詳述了。大部分情況下,普查是不太可能的,所以抽樣調(diào)查是科學(xué)研究中應(yīng)用最為廣泛的收集數(shù)據(jù)的方法。但是正如前面在談?wù)損recision和accuracy問題的時(shí)候說的,我們希望數(shù)據(jù)的質(zhì)量是Low Bias and Low Variance,抽樣調(diào)查的樣本既能很好地代表總體(非抽樣誤差小),同時(shí)多次抽樣的話,也希望抽樣的樣本大致都接近,降低抽樣誤差。所以從統(tǒng)計(jì)學(xué)誕生至今,已經(jīng)提出了很多的抽樣方法。可以說并沒有任何一種方法能完全避免這些誤差,這些方法需要根據(jù)具體情境具體使用。
總的來說,抽樣方法可以分為兩大類:概率抽樣與非概率抽樣。
概率抽樣包括了:
- 簡單隨機(jī)抽樣
- 系統(tǒng)抽樣
- 分層抽樣
- 整群抽樣
- 多階段抽樣
概率抽樣是根據(jù)一個(gè)已知的概率來抽取樣本單位(也稱為隨機(jī)抽樣),概率抽樣要求按照一定的概率隨機(jī)抽取樣本,也就是說每個(gè)樣本都有一定的機(jī)會(huì)被抽中,同時(shí)每個(gè)樣本被抽中的概率是可以已知或計(jì)算出來的,而當(dāng)運(yùn)用概率抽樣的樣本進(jìn)行參數(shù)估計(jì)的時(shí)候必須考慮樣本被抽中的概率(某種程度來說感覺類似貝葉斯,先驗(yàn)概率和后驗(yàn)概率的問題)。
簡單隨機(jī)抽樣——從總體N個(gè)單位里抽出n個(gè)單位作為樣本(可以重復(fù)抽樣,也可以不重復(fù)抽樣),最常用的抽樣方式,參數(shù)估計(jì)和假設(shè)檢驗(yàn)主要依據(jù)的就是簡單隨機(jī)樣本。
系統(tǒng)抽樣——將總體中的所有單位(抽樣單位)按一定順序排列, 在規(guī)定的范圍內(nèi)隨機(jī)地抽取一個(gè)單位作為初始單位, 然后按事先規(guī)定好的規(guī)則確定其他樣本單位(先從數(shù)字1到k之間隨機(jī)抽取一個(gè)數(shù)字r作為初始單位,以后依次取r+k, r+2k…等單位)。
分層抽樣——將總體單位按某種特征或某種規(guī)則劃分為不同的層(Strata), 然后從不同的層中獨(dú)立、 隨機(jī)地抽取樣本。
整群抽樣——將總體中若干個(gè)單位合并為組(群), 抽樣時(shí)直接抽取群, 然后對中選群中的所有單位全部實(shí)施調(diào)查。
多階段抽樣——先抽取群, 但并不是調(diào)查群內(nèi)的所有單位, 而是再進(jìn)行一步抽樣,從選中的群中抽取出若干個(gè)單位進(jìn)行調(diào)查(群是初級抽樣單位,第二階段抽取的是最終抽樣單位。將該方法推廣, 使抽樣的段數(shù)增多, 就稱為多階段抽樣)
非概率抽樣包括了:
- 方便抽樣
- 判斷抽樣
- 自愿樣本
- 滾雪球抽樣
- 配額抽樣
非概率抽樣則不是按照隨機(jī)的原則選取樣本,而是根據(jù)研究的具體需求選取調(diào)查樣本。
方便抽樣——研究員依據(jù)方便的原則選取對應(yīng)的樣本。
判斷抽樣——研究員根據(jù)自己的判斷選擇樣本。
自愿樣本——被調(diào)查者自愿參加調(diào)查提供信息。舉個(gè)跟地學(xué)相關(guān)的例子——志愿地理信息(Volunteer Geographcial Information,VGI),是指利用工具創(chuàng)建、組裝和傳播個(gè)人資源提供的地理數(shù)據(jù),像社交媒體中的簽到。
滾雪球抽樣——首先選擇一組進(jìn)行調(diào)查,讓調(diào)查者提供另外一些屬于調(diào)查總體的調(diào)查對象,然后持續(xù)下去。
配額抽樣——先將體中的所有單位按一定的標(biāo)志(變量) 分為若干類, 然后在每個(gè)類中采用方便抽樣或判斷抽樣的方式選取樣本單位。
總的來說,各種抽樣方式各有各有的優(yōu)缺點(diǎn),根據(jù)研究具體情況進(jìn)行選擇。而實(shí)際研究中簡單隨機(jī)抽樣的應(yīng)用更多些,這邊提供R語言中做簡單隨機(jī)抽樣的代碼示例。
#N表示總體的數(shù)據(jù),n為抽樣單位,replace=FALSE代表不重復(fù)抽樣,replace=TRUE代表重復(fù)抽樣。
n<-sample(N,n,replace = FALSE)
2.正態(tài)分布
正態(tài)分布由高斯作為描述誤差相對頻數(shù)分布的模型而提出的:
- 描述連續(xù)型隨機(jī)變量的最重要的分布
- 許多現(xiàn)象都可以由正態(tài)分布來描述
- 可用于近似離散型隨機(jī)變量的分布
- 經(jīng)典統(tǒng)計(jì)推斷的基礎(chǔ)
正態(tài)分布的意義,多多少少大家都有了解,這里就不再詳述了。
隨機(jī)變量服從
則X的概率密度函數(shù)為
這就是正態(tài)分布的概率密度函數(shù)。
正態(tài)分布具有如下性質(zhì):
- 關(guān)于x=μ的鐘形對稱性質(zhì),峰值在x=μ處。
- 均值和標(biāo)準(zhǔn)差一旦決定,該分布形式也就決定了。
- 均值決定分布函數(shù)位置,標(biāo)準(zhǔn)差決定函數(shù)的扁平程度。
- X軸兩側(cè)無限延伸,f(x)無限逼近x軸,但理論上不可能相交。
- 正態(tài)隨機(jī)變量在特定區(qū)間上的取值概率由正態(tài)曲線下的面積給出,而且其曲線下的總面積等于1
下圖給出了兩個(gè)圖(一個(gè)是用核密度生成的曲線,一個(gè)是正態(tài)分布概率密度函數(shù))來說明以上的部分性質(zhì)(具體實(shí)現(xiàn)的R語言代碼會(huì)在筆記寫完后給出)。
標(biāo)準(zhǔn)正態(tài)分布就是指均值為0,標(biāo)準(zhǔn)差為1的正態(tài)分布。通過標(biāo)準(zhǔn)正態(tài)分布可以很方便地求算各種概率,所以實(shí)際應(yīng)用中,往往將正態(tài)分布數(shù)據(jù)通過標(biāo)準(zhǔn)化的方式轉(zhuǎn)化為標(biāo)準(zhǔn)正態(tài)分布求解具體概率。
即令
則Z服從標(biāo)準(zhǔn)正態(tài)分布。
那么如何檢驗(yàn)數(shù)據(jù)的正態(tài)性呢?一般有以下幾種方法:
- 對數(shù)據(jù)畫出頻數(shù)分布的直方圖或莖葉圖(若數(shù)據(jù)近似服從正態(tài)分布, 則圖形的形狀與上面給出的正態(tài)曲線應(yīng)該相似)。
- 求出樣本數(shù)據(jù)的四分位差和標(biāo)準(zhǔn)差, 然后二者計(jì)算比值。 若數(shù)據(jù)近似服從正態(tài)分布,則有
- 擬合優(yōu)度檢驗(yàn)
一般可以通過畫這個(gè)圖來進(jìn)行檢驗(yàn)(代碼同在筆記寫完后給出)。
或者計(jì)算四分位差和標(biāo)準(zhǔn)差比值。
這里給出這個(gè)方法的R語言實(shí)現(xiàn)(用戶自編函數(shù))。
Normaltestindex<-function(x) {
q=fivenum(x)
Qd=q[4]-q[2]
s=sd(x)
Normaltestindex=Qd/s
cat("The Qd/s", Normaltestindex)
}
擬合優(yōu)度檢驗(yàn)是后面章節(jié)內(nèi)容,這里不詳述。
正態(tài)分布在各樣本相互前提下存在線性可加性。
同時(shí)樣本量夠大情況下,n個(gè)獨(dú)立隨機(jī)變量之和服從正態(tài)分布。
3.三種不同性質(zhì)的分布
統(tǒng)計(jì)量(statistic)——樣本來自總體,必然攜帶有反映總體性質(zhì)的各種信息。統(tǒng)計(jì)的基本任務(wù)就是通過對樣本的研究來對總體的未知參數(shù)或分布類型作出估計(jì),對有關(guān)總體的假設(shè)作出推斷。樣本是進(jìn)行統(tǒng)計(jì)推斷的依據(jù)。但在實(shí)際應(yīng)用時(shí),一般不是直接使用樣本本身,而是對樣本進(jìn)行整理和加工, 即針對具體問題構(gòu)造適當(dāng)?shù)暮瘮?shù)—統(tǒng)計(jì)量, 利用這些函數(shù)來進(jìn)行統(tǒng)計(jì)推斷,揭示總體的統(tǒng)計(jì)特性。事實(shí)上統(tǒng)計(jì)量把分散在樣本中的總體信息按需要集中在一個(gè)函數(shù)上,使該函數(shù)能反映總體方面的信息。
概念很拗口,總結(jié)起來就是,我懶得分析(也沒法分析,因?yàn)橛行┛傮w無法窮盡)總體的分布,我就偷懶地先抽樣,并且認(rèn)為樣本能夠代表總體特征,再偷懶地計(jì)算某些指標(biāo),這些指標(biāo)可以反映樣本數(shù)據(jù)分布特征,這些指標(biāo)就叫統(tǒng)計(jì)量,然后再用統(tǒng)計(jì)量去推出(猜)總體的分布特征(第一章提到了,應(yīng)該叫參數(shù))——果然“懶”才是人類進(jìn)步的動(dòng)力。
當(dāng)然這里要區(qū)分兩個(gè)概念——統(tǒng)計(jì)量與觀察值。
如何理解這二者區(qū)別呢?其實(shí)這里把樣本看成了一組隨機(jī)變量,因?yàn)樵谖闯闃忧埃瑯颖居^察值未知,樣本就是個(gè)隨機(jī)變量(所以一般來說統(tǒng)計(jì)推斷的基礎(chǔ)是簡單隨機(jī)抽樣),但是抽樣之后,樣本就是一組確定的觀察值,這也可以說是樣本的二重性。
常用的統(tǒng)計(jì)量包括了樣本均值、樣本方差、樣本標(biāo)準(zhǔn)差、樣本k階原點(diǎn)矩、樣本k階中心距(具體公式的話,文末附錄給出)。
從前面提到的統(tǒng)計(jì)推斷基礎(chǔ)是簡單隨機(jī)抽樣,也就是要求樣本是簡單隨機(jī)樣本,那么簡單隨機(jī)樣本又是什么呢?
首先隨機(jī)樣本的概念:
而簡單隨機(jī)樣本則需要在隨機(jī)樣本的前提上滿足以下兩個(gè)條件:
- 隨機(jī)性:總體中每個(gè)個(gè)體都有同等機(jī)會(huì)被選到樣本中,即
- 獨(dú)立性:樣本中每個(gè)個(gè)體的選取不影響其他個(gè)體的選取,即
是相互獨(dú)立的隨機(jī)變量
接下來是標(biāo)題提到的三種不同性質(zhì)的分布:總體分布、樣本分布、抽樣分布。
- 總體分布——總體中各元素的觀察值所形成的分布,分布通常是未知的,可以假定它服從某種分布。
- 樣本分布——一個(gè)樣本中各觀察值的分布,也稱經(jīng)驗(yàn)分布,當(dāng)樣本容量 n 逐漸增大時(shí),樣本分布逐
漸接近總體的分布。- 抽樣分布——樣本統(tǒng)計(jì)量的概率分布, 是一種理論分布,又稱為誘導(dǎo)分布,在重復(fù)選取容量為n 的樣本時(shí),由該統(tǒng)計(jì)量的所有可能取值形成的相對頻數(shù)分布,隨機(jī)變量是樣本統(tǒng)計(jì)量(樣本函數(shù),如樣本均值,樣本比例,樣本方差等),結(jié)果來自容量相同的所有可能樣本,提供了樣本統(tǒng)計(jì)量長遠(yuǎn)而穩(wěn)定的信息,是進(jìn)行推斷的理論基礎(chǔ),也是抽樣推斷科學(xué)性的重要依據(jù)( 點(diǎn)估計(jì)、 置信區(qū)間、假設(shè)推斷等)。
用一個(gè)簡單的例子來說明三者的區(qū)別。
假設(shè)總體N=4,隨機(jī)變量X=年齡。
總體分布如下,均值為21,方差為2.236。這里提醒用R語言做統(tǒng)計(jì)的同學(xué),R語言默認(rèn)的var和sd都是求樣本的標(biāo)準(zhǔn)差(分母是n-1和n的差別),當(dāng)你的數(shù)據(jù)是總體時(shí),建議另外計(jì)算,或者可以使用我下面的自編函數(shù)(給了個(gè)標(biāo)準(zhǔn)差的樣例,給了個(gè)標(biāo)準(zhǔn)差的樣例,方差的會(huì)在筆記寫完后給出)。
Populationsd<-function(x){
n=length(x)
m=mean(x)
Psd=sqrt(sum((x-m)^2)/n)
cat("The Standard deviation of Population : ",Psd)
}
建立n=2的抽樣分布,樣本均值分布如下,均值為21,方差為1.58
可以發(fā)現(xiàn)總體分布是均勻分布,而樣本均值的抽樣分布卻呈現(xiàn)了近似正態(tài)分布,均值是相同的,但是方差卻有差異。
根據(jù)總體分布以及樣本容量可以將抽樣分布分為以下三類:
- 精確抽樣分布:當(dāng)總體分布已知時(shí),如果對任一自然數(shù)都能導(dǎo)出統(tǒng)計(jì)量分布的顯示表達(dá)式,這樣的抽樣分布稱為精確抽樣分布(對小樣本的統(tǒng)計(jì)推斷特別有用,大多數(shù)是在正態(tài)總體下得到的, t分布、 F分布等)。
- 漸近抽樣分布:樣本量無限大時(shí)統(tǒng)計(jì)量的極限分布(大樣本問題)。
- 近似抽樣分布:注意獲得近似分布的條件(用統(tǒng)計(jì)量的前二階矩當(dāng)作正態(tài)分布的前二階矩獲得
正態(tài)近似,隨機(jī)模擬法獲得統(tǒng)計(jì)量的近似分布)。
4.一個(gè)總體樣本統(tǒng)計(jì)量的抽樣分布
樣本均值的抽樣分布——在重復(fù)選取容量為 n 的樣本時(shí),由樣本均值的所有可能取值形成的相對頻數(shù)分布(一種理論概率分布,推斷總體均值的理論基礎(chǔ))。
- 正態(tài)總體均值抽樣分布——精確分布(均值無偏)。
- 樣本均值的中心極限定理——漸進(jìn)分布。
中心極限定理:
用一張圖來說明這個(gè)定理(摘自參考書目1:賈俊平,《統(tǒng)計(jì)學(xué)》(第五版),中國人民大學(xué)出版社,2012.)。
當(dāng)然也在這里誕生了一個(gè)統(tǒng)計(jì)學(xué)聞名于世的規(guī)定,樣本容量n一般至少要求>30。
因此樣本均值的抽樣分布中,樣本均值的數(shù)學(xué)期望(也就是均值)和方差就有對應(yīng)的公式了。
樣本均值的數(shù)學(xué)期望和方差:
數(shù)學(xué)期望:
方差:
總結(jié)來說,總體分布為正態(tài)分布的話,抽樣分布也是正態(tài)分布,總體分布為非正態(tài)分布的話,大樣本情況下也是近似正態(tài)分布,小樣本則為非正態(tài)分布。
除了均值之外,實(shí)際生活中比例也是一個(gè)很重要的參數(shù)。
比例——總體(或樣本)中具有某種屬性的單位與全部單位總數(shù)之比(如不同性別的人與全部人數(shù)之比,合格品(或不合格品) 與全部產(chǎn)品總數(shù)之比)
總體比例可表示為
樣本比例可表示為
樣本比例的抽樣分布——在重復(fù)選取容量為n的樣本時(shí),由樣本比例的所有可能取值形成的相對頻數(shù)分布。
- 一種理論概率分布。
- 當(dāng)樣本容量很大時(shí)(滿足np≥5, n(1-p)≥5),樣本比例的抽樣分布可用正態(tài)分布近似。
- 推斷總體比例p的理論基礎(chǔ)。
類似于均值的抽樣分布我們可以得到樣本比例的數(shù)學(xué)期望和方差:
數(shù)學(xué)期望:
方差:
接下來介紹一個(gè)重要的分布——卡方分布。
卡方分布的性質(zhì)和特點(diǎn)如下:
- 分布的變量值始終為正
- 分布的形狀取決于其自由度n的大小, 通常為不對稱的單峰右偏( 正偏) 分布, 但隨著自由度
的增大逐漸趨于對稱, 當(dāng)n>30時(shí), 接近正態(tài)分布- 期望為:
方差為:
- 可加性:
卡方分布的性質(zhì)可以根據(jù)這張圖來看。
卡方分布一般用于樣本方差的分布的計(jì)算。
樣本方差的分布——在重復(fù)選取容量為n的樣本時(shí), 由樣本方差的所有可能取值形成的相對頻數(shù)分布。
對于來自正態(tài)總體的簡單隨機(jī)樣本,則比值
該比值的抽樣分布服從
接著再介紹一個(gè)耳熟能詳?shù)膖分布。t 分布是類似正態(tài)分布的一種對稱分布, 它通常要比正態(tài)分布平坦和分散。
t分布的性質(zhì)和特點(diǎn)如下:
- 自由度為1的t 分布為柯西分布,期望值不存在。
- n>1時(shí),期望值為0。
- n>2時(shí),方差存在,為n/(n-2)。
- 隨著自由度的增大,分布也逐漸趨于標(biāo)準(zhǔn)正態(tài)分布。(t 分布的極限為標(biāo)準(zhǔn)正態(tài)分布,當(dāng)n>30時(shí), t 分布可用標(biāo)準(zhǔn)正態(tài)分布近似)
t分布的性質(zhì)可以根據(jù)這張圖來看。
t分布的應(yīng)用是在求樣本均值與樣本標(biāo)準(zhǔn)差之比上
樣本均值與樣本標(biāo)準(zhǔn)差之比的分布為:
5.兩個(gè)總體樣本統(tǒng)計(jì)量的抽樣分布
其實(shí)從前面第4點(diǎn)內(nèi)容可以看出,其實(shí)實(shí)際應(yīng)用中,均值、比例、方差的估計(jì)是比較多的,因此這三個(gè)總體樣本統(tǒng)計(jì)量的抽樣分布特別提出來了。而第4點(diǎn)討論的是一個(gè)總體的,兩個(gè)總體的也可以類比,道理是一樣的。
兩個(gè)樣本均值之差的抽樣分布:
- 兩個(gè)總體均為正態(tài)分布,即
- 兩個(gè)樣本均值之差的抽樣分布服從正態(tài)分布,其分布的數(shù)學(xué)期望為兩個(gè)總體均值之差:
- 方差為各自的方差之和:
兩個(gè)樣本比例之差的抽樣分布:
- 兩個(gè)總體都服從二項(xiàng)分布。
- 分別從兩個(gè)總體中抽取容量為n1和n2的獨(dú)立樣本,當(dāng)兩個(gè)樣本都為大樣本時(shí),兩個(gè)樣本比例之差的抽樣分布可用正態(tài)分布來近似。
- 分布的數(shù)學(xué)期望為:
- 方差為各自方差之和:
最后的最后,我們來介紹本片的最后一個(gè)重要的分布——F分布。
F分布:
不同自由度下的F分布
兩個(gè)樣本方差比的抽樣分布:
- 兩個(gè)總體都為正態(tài)分布,即
- 從兩個(gè)總體中分別抽取容量為n1和n2的獨(dú)立樣本。
- 兩個(gè)樣本方差比的抽樣分布, 服從分子自由度(n1-1), 分母自由度為(n2-1)的F分布, 即