作為前數(shù)學(xué)專業(yè)畢業(yè)生,學(xué)過的概率統(tǒng)計(jì)知識已經(jīng)忘記得差不多了,對于統(tǒng)計(jì)學(xué)的概念能清楚記得的也只有方差,標(biāo)準(zhǔn)差和均值了。正態(tài)分布只記得了一個曲線圖了,其他性質(zhì)什么的都不記得了。更遑論說知道每一個統(tǒng)計(jì)變量的意義了。所以看到這個書名的時候就挺好奇這個所謂的極簡的統(tǒng)計(jì)學(xué)究竟簡單到什么程度。事實(shí)上看完之后確實(shí)覺得真得講得很簡單了,有初中以上的數(shù)學(xué)程度就可以輕松看完全書了。關(guān)鍵是沒有生硬地去講公式的證明和推導(dǎo),一些復(fù)雜的理論都是直接給出結(jié)論的,重點(diǎn)在比較形象地去說明每個統(tǒng)計(jì)量和公式的含義和用法,讓我們能更好地理解和運(yùn)用這個統(tǒng)計(jì)量來解決現(xiàn)實(shí)中的問題。
已經(jīng)很難在可以理解的基礎(chǔ)上對本書中的一些說明過程做進(jìn)一步濃縮了,這里也不會做這樣的努力。本文只是嘗試在讀過《極簡統(tǒng)計(jì)學(xué)》之后將其中我認(rèn)為有用的知識點(diǎn)和需要記憶的內(nèi)容提取出來,做成一個結(jié)構(gòu)清晰的速查性質(zhì)的文摘,這樣必然會損失其中的一些邏輯上的關(guān)聯(lián)和形象生動的示例過程,如果再看過本文之后對這些內(nèi)容感興趣,可以去找來原書通讀一遍。事實(shí)上我當(dāng)時讀完整本書也就只用了8個小時左右。
總述
《極簡統(tǒng)計(jì)學(xué)》共計(jì)21章,分為兩部分來組織全文,第一部分主要介紹一些統(tǒng)計(jì)量,第二部分通過這些統(tǒng)計(jì)量來完成一些推論統(tǒng)計(jì)的過程。通讀全書之后可以發(fā)現(xiàn),本書的最終目的只是為了完成了兩件很有意義的推導(dǎo):
- 如何在只知道樣本數(shù)據(jù)的情況下推算正態(tài)母群體的總體方差
- 如何在只知道樣本數(shù)據(jù)的情況下推算正態(tài)母群體的總體均值
本文自然不會再完成這樣一個推導(dǎo)過程。和原書的結(jié)構(gòu)一樣,本文也會分為兩部分來做摘要,一部分是統(tǒng)計(jì)量,一部分是區(qū)間估計(jì)的方法。
統(tǒng)計(jì)量
平均值
平均值 = (組值*相對頻數(shù))的合計(jì)
平均值 = (數(shù)據(jù)總和) / (數(shù)據(jù)數(shù))
上述兩個公式都被用來計(jì)算算術(shù)平均值,事實(shí)上第一個可能用得更多。但是要明白,上面的兩個公式都是用來計(jì)算算術(shù)平均值的,但是取平均值的方法并不止一個。
算術(shù)平均值
幾何平均值
均方根值
調(diào)和平均值
加權(quán)平均值
一般來說:如果想在合計(jì)意義上保持?jǐn)?shù)據(jù)的本質(zhì),則使用算術(shù)平均值;想在乘積的意義上保持?jǐn)?shù)據(jù)的本質(zhì),則用幾何平均值,如成長率;對待速度則一般用調(diào)和平均值。
平均值的性質(zhì)
- 數(shù)據(jù)在平均值的周邊分布
- 多次出現(xiàn)的數(shù)據(jù)對平均值的影響力大
- 直方圖呈左右對稱的情況下,其對稱軸通過的點(diǎn)即平均值
方差和標(biāo)準(zhǔn)差
偏差 = (數(shù)據(jù)的數(shù)值)-(平均值)
方差 = [(偏差的平方)的合計(jì)]/(數(shù)據(jù)數(shù))
標(biāo)準(zhǔn)差 = 方差的開平方 = 偏差的均方根值
也可以通過分組之后計(jì)算相對頻數(shù)的方式計(jì)算方差:
方差 = (組值 - 平均值)的平方 * (相對頻數(shù)) 的合計(jì)
數(shù)學(xué)表達(dá)式
方差
標(biāo)準(zhǔn)差
意義和性質(zhì)
平均值是從數(shù)據(jù)的分布中取出的代表的數(shù)。因此,可以認(rèn)為數(shù)據(jù)以平均值為基點(diǎn),在其左右擴(kuò)散。評價(jià)這種擴(kuò)散、分散的標(biāo)準(zhǔn)就是標(biāo)準(zhǔn)差。標(biāo)準(zhǔn)差將數(shù)據(jù)平均值的離散方式進(jìn)行平均化。此時無論向大的方面離散還是小的方面離散,都用正數(shù)進(jìn)行評價(jià),避免相互抵消的平均。
這里和原書一樣,通過S.D. 來表示標(biāo)準(zhǔn)差,這是原書一個非常重要的統(tǒng)計(jì)量。一般會以S.D. 作為判斷數(shù)據(jù)特殊性的標(biāo)準(zhǔn)。可以認(rèn)為只距離平均值1個S.D. 的數(shù)據(jù)為普通數(shù)據(jù),距離平均值超過2個S.D. 的數(shù)據(jù)為特殊數(shù)據(jù)。
S.D. 具備如下性質(zhì):
- 數(shù)據(jù)組X的全部數(shù)據(jù)加上定值a得到新數(shù)據(jù)組Y,數(shù)據(jù)Y 的平均值是數(shù)據(jù)X的平均值加上a, 數(shù)據(jù)Y 的方差和S.D. 與數(shù)據(jù)X相比不變
- 數(shù)據(jù)組X的全部數(shù)據(jù)乘以定值k得到新數(shù)據(jù)組Y,數(shù)據(jù)Y 的平均值是數(shù)據(jù)X的平均值乘以k, 數(shù)據(jù)Y 的方差是數(shù)據(jù)X方差的k平方倍,S.D. 是k倍
- 將數(shù)據(jù)進(jìn)行[(數(shù)據(jù))-(平均值)]/(S.D.)的加工,所得的數(shù)據(jù)的平均值為0,S.D. 為1
現(xiàn)實(shí)的應(yīng)用
股票的交易中,不僅要考慮收益的平均值,收益率的S.D. 也和重要。股票收益率的S.D. 的術(shù)語稱作波動率。
-
S.D. 也可以用于理解金融商品的優(yōu)劣,可以說在同樣的平均收益率下,S.D. 小的是優(yōu)良的金融商品;而在同樣的S.D. 下,平均收益率大的是優(yōu)良的金融商品。金融商品的優(yōu)劣性的評價(jià)基準(zhǔn)是夏普比率(SPM):
( X的夏普比率 ) = [ ( X的回報(bào) )-( 國債收益率 ) ] / ( X 的風(fēng)險(xiǎn) )*
一般認(rèn)為夏普比率越大,金融商品越是優(yōu)良。
正態(tài)分布
標(biāo)準(zhǔn)的數(shù)學(xué)著作中,正態(tài)分布需要有概率密度函數(shù)來決定,需要從概率的角度來進(jìn)行推導(dǎo),原書為了簡便起見,完全不涉及概率的知識,這里也一樣,只從應(yīng)用的角度來對正態(tài)分布的性質(zhì)做一個說明。
可以認(rèn)為分布規(guī)律符合下面的圖形的數(shù)據(jù)是正態(tài)分布的(μ代表平均值,σ代表標(biāo)準(zhǔn)差):
標(biāo)準(zhǔn)正態(tài)分布 是平均值為0,S.D. 為1的正態(tài)分布。
從上面的圖形中可以看出一些正態(tài)分布的性質(zhì):
- 橫軸與正態(tài)曲線之間的面積恒等于1。正態(tài)曲線下,橫軸區(qū)間(μ-σ,μ+σ)內(nèi)的面積為68.268949%,橫軸區(qū)間(μ-1.96σ,μ+1.96σ)內(nèi)的面積為95.449974%,橫軸區(qū)間(μ-2.58σ,μ+2.58σ)內(nèi)的面積為99.730020%。
- σ描述正態(tài)分布資料數(shù)據(jù)分布的離散程度,σ越大,數(shù)據(jù)分布越分散,σ越小,數(shù)據(jù)分布越集中。也稱為是正態(tài)分布的形狀參數(shù),σ越大,曲線越扁平,反之,σ越小,曲線越瘦高。
- 平均值為μ,標(biāo)準(zhǔn)差為σ的正態(tài)分布數(shù)據(jù)可以通過公式 z=(x-μ)/σ 回到標(biāo)準(zhǔn)正態(tài)分布
中心極限定理:設(shè)從均值為μ、方差為σ2;(有限)的任意一個總體中抽取樣本量為n的樣本,當(dāng)n充分大時,樣本均值的抽樣分布近似服從均值為μ、方差為σ2/n 的正態(tài)分布。
我們可以認(rèn)為,實(shí)際觀測到的不確定現(xiàn)象,如果是有很多單一的不確定現(xiàn)象復(fù)合而成,則可以將他們解釋為"在中心極限定理的作用下表現(xiàn)為正態(tài)分布",如動物身長,股票價(jià)格等現(xiàn)象。
正態(tài)分布的應(yīng)用
使用正態(tài)分布的知識,可以進(jìn)行"預(yù)測"。從上面的描述的正態(tài)分布的性質(zhì)可以看出來,如果我們把關(guān)注的不確定現(xiàn)象看做正態(tài)分布,那么,利用正態(tài)分布的性質(zhì)對將要出現(xiàn)的數(shù)據(jù)進(jìn)行預(yù)測就將成為可能。
從上面的正態(tài)分布曲線圖可以知道,如果想加大預(yù)測的命中概率,就要擴(kuò)大區(qū)間范圍,如果想要100%命中,預(yù)測范圍將是負(fù)無窮到正無窮的范圍。通用的是"95%命中"或者"99%命中",原書中選取了世界上最常用的"95%命中"。后續(xù)的說明都是基于這一個命中概率來進(jìn)行的。
從95%命中區(qū)間出發(fā),可以得到兩個結(jié)論:
- 標(biāo)準(zhǔn)正態(tài)分布的95%預(yù)測命中區(qū)間為-1.96以上+1.96以下。
- 平均值為μ,標(biāo)準(zhǔn)差為σ的正態(tài)分布的95%預(yù)測命中區(qū)間為[μ - 1.96σ, μ + 1.96σ]
應(yīng)用1
有關(guān)正態(tài)分布(或者近似正態(tài)分布)的母群體的總體參數(shù)為某數(shù)值的假設(shè)檢驗(yàn),可以按照下面的方法進(jìn)行:
其總體參數(shù)的母群體是正態(tài)分布,平均值為μ,標(biāo)準(zhǔn)差為σ時,如果觀測到的數(shù)據(jù)x的不等式:
-1.96 <= (x-μ)/σ <= +1.96
成立,假設(shè)不被舍棄(接受);否則,假設(shè)被舍棄。
這里,其實(shí)并沒有開始預(yù)測,只是對一個隨意的總體參數(shù)是否合理做了一個檢驗(yàn),而檢驗(yàn)的依據(jù)是我們一般認(rèn)為我們觀測的數(shù)據(jù)都會落在總體數(shù)據(jù)分布的95%置信區(qū)間內(nèi),如果假設(shè)的總體參數(shù)不滿足讓觀測數(shù)據(jù)落到置信區(qū)間,則將假設(shè)舍棄,否則接受。
應(yīng)用2
區(qū)間估計(jì) 是這樣一種估計(jì)方法:它針對母群體的總體參數(shù),在假定其總體參數(shù)的情況下,只集合了現(xiàn)實(shí)觀測到的數(shù)據(jù)在觀測數(shù)據(jù)“95%預(yù)測命中區(qū)間”的總體參數(shù)。根據(jù)區(qū)間估計(jì)確定的總體參數(shù)的范圍叫做"95%置信區(qū)間"。由區(qū)間估計(jì)求得的區(qū)間,是對所有的總體參數(shù)進(jìn)行上面應(yīng)用1中的檢驗(yàn)操作,不舍棄而保留下來的集合。
關(guān)于正態(tài)母群體已知標(biāo)準(zhǔn)差σ時,對未知的平均值μ進(jìn)行區(qū)間估計(jì)的方法:使用觀測到的數(shù)據(jù)x,解關(guān)于μ的一元一次不等式
-1.96 <= (x-μ)/σ <= +1.96
得出 "* <= μ <= *"的形式即可。
95%置信區(qū)間是這樣一種區(qū)間:它有各種各樣的觀測值用相同的方法進(jìn)行區(qū)間估計(jì),其中95%包含正確的總體參數(shù)。
統(tǒng)計(jì)量部分的描述就此結(jié)束了,這部分主要是通過不同的統(tǒng)計(jì)量來刻畫數(shù)據(jù)的特征,并簡單地說明了對正態(tài)母群體進(jìn)行“統(tǒng)計(jì)檢驗(yàn)”和"區(qū)間估計(jì)"的方法。
推論統(tǒng)計(jì)
在現(xiàn)實(shí)生活中,我們是基本不可能觀測到總體的全部數(shù)據(jù)的,很多時候只能獲取到總體中一部分的數(shù)據(jù)。但是我們從一些現(xiàn)象中也可以得出這樣的結(jié)論“如果進(jìn)行充分的觀測,就能相當(dāng)鮮明地捕捉母群體的情況”。但是我們的目標(biāo)是:“不進(jìn)行那么大量的觀測而推測出母群體的情況”。
我們知道,從母群體中觀測到的數(shù)據(jù)是受母群體的總體特征制約的。原書給出了這樣的結(jié)論:
- 觀測到的數(shù)據(jù),可以在一定程度上認(rèn)為接近總體均值
- 觀測多個數(shù)據(jù),取樣本均值,比觀測一個數(shù)據(jù)更接近總體均值,觀測數(shù)據(jù)越增加,樣本均值接近總體均值的可能性越高。
我們回到先前的目標(biāo),就是要通過樣本數(shù)據(jù)推測母群體即總體的情況。這依賴母群體的一些數(shù)學(xué)性質(zhì),原書作為統(tǒng)計(jì)的入門書,并沒有也不需要給出這些數(shù)學(xué)理論的證明,這里直接拿來用就可以。
- 正態(tài)母群體取樣本均值的分布仍為正態(tài)分布
- 設(shè)從均值為μ、標(biāo)準(zhǔn)差為σ的一個正態(tài)總體中抽取樣本量為n的樣本,則樣本均值的抽樣分布服從均值為μ、標(biāo)準(zhǔn)差為σ/√n 的正態(tài)分布
從上面的性質(zhì)可以得到這樣的結(jié)論:
對于均值為μ、標(biāo)準(zhǔn)差為σ的一個正態(tài)總體的n個樣本均值來說,其95%置信區(qū)間為有下面的不等式解出來的范圍,a為樣本均值
-1.96 <= (a-μ)/(σ/√n)) <= +1.96
本部分其實(shí)就是要達(dá)到四個目標(biāo):
- 已知正態(tài)母群體和總體方差時,對總體均值的估計(jì)
- 已知正態(tài)母群體和總體均值時,對總體方差的估計(jì)
- 已知正態(tài)母群體,未知總體均值時,對總體方差的估計(jì)
- 已知正態(tài)母群體,未知總體方差時,對總體均值的估計(jì)
下面來分別說明。
已知正態(tài)母群體和總體方差時,對總體均值的估計(jì)
這個估計(jì)是很簡單的,通過公式:
-1.96 <= (a-μ)/(σ/√n)) <= +1.96
可以推出μ的95%置信區(qū)間是:
a-1.96(σ/√n) <= μ <= a+1.96(σ/√n)
已知正態(tài)母群體和總體均值時,對總體方差的估計(jì)
正態(tài)母群體的樣本均值是符合正態(tài)分布的,而且樣本均值也體現(xiàn)了總體均值的性質(zhì),可以通過上面的不等式來推導(dǎo)出總體均值的估計(jì)。樣本方差當(dāng)然也體現(xiàn)了總體方差的性質(zhì),但是樣本方差并不服從正態(tài)分布。樣本方差服從的是卡方分布。
卡方分布 若n個相互獨(dú)立的隨機(jī)變量ξ?、ξ?、……、ξn ,均服從標(biāo)準(zhǔn)正態(tài)分布(也稱獨(dú)立同分布于標(biāo)準(zhǔn)正態(tài)分布),則這n個服從標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)變量的平方和構(gòu)成一新的隨機(jī)變量,其分布規(guī)律稱為卡方分布(chi-square distribution)。
卡方分布的分布曲線如下:
從前面的知識我們可以知道,對于從正態(tài)母群體中觀測到的n個樣本,用如下公式表示的統(tǒng)計(jì)量V是自由度為n的卡方分布:
卡方分布的分布的臨界值表如下:
通過查表可以知道V在95%置信區(qū)間的范圍,從而求出總體方差的95%置信區(qū)間。如對于自由度為5的卡方分布V來說。95%的置信區(qū)間可以按照 0.83 <= V <= 12.83來計(jì)算最終的總體方差的置信區(qū)間。
已知正態(tài)母群體,未知總體均值時,對總體方差的估計(jì)
從上面根據(jù)正態(tài)母群體的總體均值來推測總體方差的估計(jì)中我們可以看到,必須先要有知道總體均值,才能對總體方差進(jìn)行估計(jì),這是一個很不自然的假設(shè)。在實(shí)際應(yīng)用中也是不太可能知道總體均值的存在的。那么如果不知道總體均值的時候,如何估計(jì)總體方差呢。
自然的想法是能不能通過樣本的均值和方差來對總體的方差的估計(jì)。事實(shí)是統(tǒng)計(jì)學(xué)家們已經(jīng)證明了下面的統(tǒng)計(jì)量W也是一個卡方分布,只不過自由度不是樣本數(shù)據(jù)數(shù)n,而是n-1,(其中):
這里不用考慮如何證明W是自由度為n-1的卡方分布,直接去使用這一結(jié)論即可。我們有樣本方差的公式:
從而可以推導(dǎo)出:
因?yàn)閃是自由度為n-1的卡方分布,通過對w的95%置信區(qū)間的估計(jì)就可以得到一個不等式,解這個不等式就可以得到總體方差的95%的置信區(qū)間,完成對總體方差的估計(jì)。
已知正態(tài)母群體,未知總體方差時,對總體均值的估計(jì)
現(xiàn)在只剩下最后一個困難的問題了,如何在只知道樣本數(shù)據(jù)的情況下的得到總體均值的估計(jì)。從前面的討論中其實(shí)可以看出,除總體均值μ以外,如果我們能只用樣本數(shù)據(jù)得到的統(tǒng)計(jì)量,清楚其分布,我們自然就可以得到總體均值的估計(jì)。
英國化學(xué)家戈塞特發(fā)現(xiàn)了這樣一個分布,并命名為t分布。我們可以看一下t分布的定義和特征。
如下公式表示的統(tǒng)計(jì)量T服從自由度為n-1的t分布:
我們知道,從正態(tài)母群體中的n個樣本數(shù)據(jù)得到的統(tǒng)計(jì)量z服從標(biāo)準(zhǔn)正態(tài)分布:
但是在現(xiàn)實(shí)中,統(tǒng)計(jì)量σ往往是未知的,所有不能通過z來求得總體均值的估計(jì)。事實(shí)上統(tǒng)計(jì)量T和z形式上很像,不難看出,如果n足夠大的時候,T的分布趨近于標(biāo)準(zhǔn)正態(tài)分布,但是當(dāng)n并不是足夠大的時候,T的分布和標(biāo)準(zhǔn)正態(tài)分布的偏差并不能被忽略。
t分布的概率密度分布圖和特征如下:
特征
- 以0為中心,左右對稱的單峰分布
- t分布是一簇曲線,其形態(tài)變化與n(確切地說與自由度ν)大小有關(guān)。自由度ν越小,t分布曲線越低平;自由度ν越大,t分布曲線越接近標(biāo)準(zhǔn)正態(tài)分布(u分布)曲線,如上圖.
t分布速查表
對于每一個指定的自由度,如果求T的95%置信區(qū)間,只需要左右分別去掉0.025即可。如自由度為10的t分布的95%置信區(qū)間是-2.228 <= T <= 2.228。通過前面推導(dǎo)出來的T的統(tǒng)計(jì)量即可得到對總體均值μ的估計(jì)。
至此,在未知總體方差時,對總體均值的估計(jì)也已經(jīng)完成
總結(jié)
以上介紹了一些常見的統(tǒng)計(jì)量和比較常用的通過樣本數(shù)據(jù)估計(jì)總體統(tǒng)計(jì)量的幾個方法。原書畢竟只是一本統(tǒng)計(jì)學(xué)的入門書籍,通過本文可以對原書的結(jié)構(gòu)和內(nèi)容做一次概括的了解。如果想知道這些統(tǒng)計(jì)量具體的應(yīng)用場景,可以查閱原書。對于統(tǒng)計(jì)學(xué)更高深的知識,讀者可以去學(xué)習(xí)更專業(yè)的統(tǒng)計(jì)學(xué)課程。
事實(shí)上,作為統(tǒng)計(jì)學(xué)中最基礎(chǔ)的兩個統(tǒng)計(jì)量:平均值和標(biāo)準(zhǔn)差,已經(jīng)能夠刻畫出來數(shù)據(jù)很重要的一些特征,如果能夠從樣本數(shù)據(jù)中推導(dǎo)出總體的的平均值和標(biāo)準(zhǔn)差,可以說是很了不起的一件事兒,能在現(xiàn)實(shí)生活生產(chǎn)實(shí)踐中給予我們很多幫助了。
最后附上本書主要內(nèi)容的思維導(dǎo)圖