統計學基礎理論

第一章 變量和圖形

統計學:科學方法收集、整理、匯總、描述和分析數據資料,并在此基礎上進行推斷和決策的科學;

歸納統計學/統計推斷:通過樣本分析來給總體下結論

描述性統計學/演繹統計學:值描述和分析特定對象而不下結論或推斷

變量、常量、連續變量、離散變量、連續數據、離散數據

自變量、因變量、函數、單值函數、多值函數

第二章 頻數分布

數組陣列:原始數據按照數量大小升序或者降序排列,最大值與最小值的差為全距;

組距、組限、組界、組中值、直方圖與頻率多邊形

頻率分布=某一組頻數/總頻數

累計頻數分布/累計頻數表,累計頻數多邊形/卵形線

累計頻率分布/百分率累計頻數=累計頻數/總頻數

第三章 均值、中位數、眾數及其他表示集中趨勢的度量

一、中位數

定義/解釋:按順序排列的一組數據中居于中間位置的數,即在這組數據中,有一半的數據比他大,有一半的數據比他小

  #?如果觀察值有偶數個,通常取最中間的兩個數值的平均數作為中位數。

二、方差

參考百科:方差

 1)定義

   方差(variance):是在概率論和統計方差衡量隨機變量或一組數據時離散程度的度量


 2)應用

  1、在統計描述中

方差用來計算每一個變量(觀察值)與總體均數之間的差異

在許多實際問題中,研究方差即偏離程度有著重要意義

為避免出現離均差(X -?

)總和為零,離均差平方和受樣本含量的影響,統計學采用平均離均差平方和來描述變量的變異程度

總體方差計算公式:

:總體方差

:變量

:總體均值

:總體例數

實際工作中,總體均數難以得到時,應用樣本統計量代替總體參數,經校正后,樣本方差計算公式:S2?= ∑(X -

)2/ (n - 1)?

S2:樣本方差

X:變量

:為樣本均值

n:樣本例數。

  2、在概率分布中

用來度量隨機變量和其數學期望(即均值)之間的偏離程度。

在概率分布中,設X是一個離散型隨機變量,若E{[X - E(X)]2}存在,則稱E{[X - E(X)]2}為X的方差,記為D(X),Var(X)或DX,其中E(X)是X的期望值,X是變量值,公式中的E是期望值expected value的縮寫,意為“變量值與其期望值之差的平方和”的期望值。

離散型隨機變量方差計算公式:D(X)=E{[X - E(X)]2} = E(X2) - [E(X)]2

當D(X) = E{[X-E(X)]2}稱為變量X的方差,而

稱為標準差(或均方差)。它與X有相同的量綱。標準差是用來衡量一組數據的離散程度的統計量?

對于連續型隨機變量X,若其定義域為(a, b),概率密度函數為f(x),連續型隨機變量X方差計算公式:D(X) =

(x - μ)2* f(x)dx,方差刻畫了隨機變量的取值對于其數學期望的離散程度。(標準差、方差越大,離散程度越大),若X的取值比較集中,則方差D(X)較小,若X的取值比較分散,則方差D(X)較大。因此,D(X)是刻畫X取值分散程度的一個量,它是衡量取值分散程度的一個尺度。


三、標準差

# 參考百科:標準差

 1)定義

標準差(Standard Deviation)又常稱均方差,是方差的算術平方根,反映一個數據集的離散程度

 2)應用

概率統計中:最常使用作為統計分布程度(statistical dispersion)上的測量。

標準差定義是總體各單位標準值與其平均數離差平方的算術平均數的平方根。它反映組內個體間的離散程度

測量到分布程度的結果,原則上具有兩種性質

為非負數值, 與測量資料具有相同單位

一個總量的標準差或一個隨機變量的標準差,及一個子集合樣品數的標準差之間,有所差別。

公式:

假設有一組數值X?,X?,X?,......Xn(皆為實數),其平均值算術平均值)為μ

標準差也被稱為標準偏差,或者實驗標準差,公式:

 3)其它

簡單來說,標準差是一組數據平均值分散程度的一種度量。一個較大的標準差,代表大部分數值和其平均值之間差異較大;一個較小的標準差,代表這些數值較接近平均值



四、均方誤差

 1)定義

均方誤差(mean-square error, MSE)是反映估計量與被估計量之間差異程度的一種度量。

設t是根據子樣確定的總體參數θ的一個估計量,(θ-t)2的數學期望,稱為估計量t的均方誤差。它等于σ2+b2,其中σ2與b分別是t的方差偏倚


 2)名詞介紹

相合估計(或一致估計)是在大樣本下評價估計量的標準,在樣本量不是很多時,人們更加傾向于基于小樣本的評價標準,此時,對無偏估計使用方差,對有偏估計使用均方誤差。

一般地,在樣本量一定時,評價一個點估計的好壞標準使用的指標總是點估計

與參數真值

的距離的函數,最常用的函數是距離的平方,由于估計量

具有隨機性,可以對該函數求期望,這就是下式給出的均方誤差:


均方誤差是評價點估計的最一般的標準,自然,我們希望估計的均方誤差越小越好,注意到

上式說明,均方誤差

由點估計的方差

與偏差

的平方兩部分組成。

如果?

是 θ 的無偏估計,則

,此時用均方誤差評價點估計與用方差是完全一致的,這也說明了用方差考察無偏估計是合理的。

不是 θ 的無偏估計,就要看其均方誤差

,即不僅看方差大小,還要看其偏差大小,下面的例子說明在均方誤差的含義下,有些有偏估計優于無偏估計。


 3)一致性最小的均方誤差估計

定義1

設有樣本

對待估參數 θ,有一個估計類,稱

是該類中θ的一致最小均方誤差估計,如果對該類估計中另外任意一個θ的估計

,在參數空間

上都有

使用情況:

一致最小均方誤差估計通常是在一個確定的估計類中進行的,一致最小均方誤差估計一般是不存在的。

既然一致最小均方誤差估計一般是不存在的,人們通常就對估計提出一些合理性要求,如無偏性就是一個常見的合理性要求。?

一致最小方差無偏估計前面曾指出,均方誤差

由點估計的方差

與偏差

的平方兩部分組成,當

是 θ 的無偏估計時,均方誤差就簡化為方差,此時一致最小均方誤差估計就是一致最小方差無偏估計。


定義2 :

是 θ 的無偏估計,如果對于任意一個θ的無偏估計

,在參數空間

上都有

則稱

是 θ 的一致最小方差無偏估計,簡記為UMVUE。?



五、估計量

 1)定義

用來估計總體未知參數用的統計量

統計學中,估計量是基于觀測數據計算一個已知量的估計值的法則:于是估計量(estimator)、被估量(estimand)和估計值(estimate)是有區別的。

估計值:當經測定的具體數值代入估計量時,它就是一個具體的數值,稱為估計值,英文是estimator。


 2)舉例

設(X1,……,Xn)為來自總體X的樣本,(X1,……,Xn)為相應的樣本值,θ是總體分布的未知參數,θ∈Θ。

Θ?表示 θ 的取值范圍,稱 Θ 為參數空間。盡管 θ 是未知的,但它的參數空間 Θ 是事先知道的,為了估計未知參數θ,我們構造一個統計量 h(X1,……,Xn),然后用 h(X1,……,Xn) 的值 h(X1,……,Xn) 來估計θ的真值,稱h(X1,……,Xn)為θ的估計量。


假設存在一個固定的待估參數。那么"估計量"是樣本空間映射到樣本估計值的一個函數。

的一個估計量記為

。很容易用隨機變量的代數來闡述這個理論:因而如果用X來標記對應觀測數據的隨機變量,估計量(本身視為隨機變量)的符號表示為該隨機變量的函數,

。對特定觀測數據集(即對于X=x)的估計值為一固定值

。通常使用簡化標記,用

表示隨機變量,不過這會造成誤解。


個人理解:

目的:估計總體數據集 X 的分布情況,即?θ;

方法:從總體數據集 X 中抽取一組樣本 h,根據 h 的分布以及θ?的取值范圍Θ?來估計總體數據集 X 的分布情況?θ。


 3)誤差

對于一個給定樣本x,估計量

的"誤差"定義為

其中

是待估參數。

注意誤差e不僅取決于估計量(估計公式或過程),還取決于樣本。


 4)均方誤差

估計量

的均方誤差被定義為誤差的平方的期望值,即為:

它用來顯示估計值的集合與被估計單個參數的平均差異。試想下面的類比:假設“參數”是靶子的靶心,“估計量”是向靶子射箭的過程,而每一支箭則是“估計值”(樣本)。那么,高均方誤差就意味著每一支箭離靶心的平均距離較大,低均方誤差則意味著每一支箭離靶心的平均距離較小。箭支可能集聚,也可能不。比如說,即使所有箭支都射中了同一個點,同時卻嚴重偏離了靶子,均方誤差相對來說依然很大。然而要注意的是,如果均方誤差相對較小,箭支則更有可能集聚(而不是離散)。


 5)一致性

一致估計量序列是一列隨著序號(通常是樣本容量)無限增大時依概率收斂于被估量的估計量序列。換句話說,增加樣本容量增大了估計量接近總體參數的概率。

在數學上,一個估計量序列 {tn;n≥ 0} 是參數θ?的一致估計量當且僅當對于所有??> 0,不管多小,我們都有

就如,一個人不斷地拋硬幣,隨著次數的增多,任何一面出現的概率(機率)就會趨于0.5。那么這個0.5就是這個拋硬幣事件中任何一面出現概率的一致估計量,或者說一致估計值。



六、高斯函數、正態分布

 1)定義

格式

abc實數常數,且a> 0;

c= 2的高斯函數是傅立葉變換特征函數。這就意味著高斯函數的傅立葉變換不僅僅是另一個高斯函數,而且是進行傅立葉變換的函數的標量倍。


 2)積分

任意高斯函數的積分是:

另一種形式是:

其中f?必須是嚴格積分的積分收斂;


 3)正態分布

參見百科:https://baike.baidu.com/item/%E6%AD%A3%E6%80%81%E5%88%86%E5%B8%83

公式:

正態分布(Normal distribution),也稱“常態分布”,又名高斯分布(Gaussian distribution)

高斯函數是正態分布的密度函數,根據中心極限定理它是復雜總和的有限概率分布

隨機變量X服從一個數學期望為μ、方差為σ^2的正態分布,記為N(μ,σ^2)。其概率密度函數為正態分布的期望值μ決定了其位置,其標準差σ決定了分布的幅度。當μ = 0,σ = 1時的正態分布是標準正態分布


定理:

由于一般的正態總體其圖像不一定關于y軸對稱,對于任一正態總體,其取值小于x的概率。只要會用它求正態總體在某個特定區間的概率即可。

為了便于描述和應用,常將正態變量作數據轉換。將一般正態分布轉化成標準正態分布。

服從標準正態分布,通過查標準正態分布表就可以直接計算出原正態分布的概率值。故該變換被稱為標準化變換。(標準正態分布表:標準正態分布表中列出了標準正態曲線下從-∞到X(當前值)范圍內的面積比例。)

定義:

隨機變量

服從一個位置參數為

、尺度參數為

的概率分布,且其概率密度函數

,則這個隨機變量就稱為正態隨機變量,正態隨機變量服從的分布就稱為正態分布,記作

,讀作

服從

,或

服從正態分布。

μ維隨機向量具有類似的概率規律時,稱此隨機向量遵從多維正態分布。多元正態分布有很好的性質,例如,多元正態分布的邊緣分布仍為正態分布,它經任何線性變換得到的隨機向量仍為多維正態分布,特別它的線性組合為一元正態分布。

多維正態分布參見“二維正態分布”。

標準正態分布:當

時,正態分布就成為標準正態分布

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,837評論 6 531
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,196評論 3 414
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 175,688評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,654評論 1 309
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,456評論 6 406
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 54,955評論 1 321
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,044評論 3 440
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,195評論 0 287
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,725評論 1 333
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,608評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,802評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,318評論 5 358
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,048評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,422評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,673評論 1 281
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,424評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,762評論 2 372

推薦閱讀更多精彩內容

  • 數據分析方法分為四大類: 1、單純的數據加工方法 a.描述性統計分析(集中、離中趨勢分析和數據分布) b.相關性分...
    重生之魂閱讀 2,840評論 0 3
  • 考試說明 注重基礎知識和概念的理解,因此解題中的計算過程不會很復雜,但是會有推公式的過程。本課程的重點知識包括:貝...
    城市中迷途小書童閱讀 1,206評論 0 0
  • 1. 簡述相關分析和回歸分析的區別和聯系。 回歸分析和相關分析都是研究兩個或兩個以上變量之間關系的方法。 廣義上說...
    安也也閱讀 8,731評論 0 3
  • 世上最愛我們的男人,是他! 也許他沒有出眾的外表, 也許他沒有正茂的年華, ...
    孫景升閱讀 188評論 0 3
  • 1)簡書ID Be_myself 2)打卡時長(打卡10天) 3)打卡日期(0919 0920 0922 0923...
    Be_myself閱讀 161評論 0 0