統計學入門(一)-統計學的基本概念

一、統計學和生活的關系

工作和生活中都會有大量的隨機現象出現。比如:同班同學畢業數年之后事業發展狀況可以有很大差異;同樣年齡性別,身高體重不同……

那什么叫做隨機現象呢?

當一件事情只有一次或兩次出現時,它的結局可能是未知的,但是當它反復重復出現的時候,它的結局就會出現一種規律,這就叫隨機現象。人類社會絕大部分現象都是隨機現象,所有隨機現象的規律只在大量重復時才會體現,而統計學的任務就是找到隨機現象的發生規律,從而將不確定性事件變為可估計、可預測的確定性結果。

二、統計學的基本概念

1、個體:個體是指統計分析根據研究目的所確定的最基本的研究對象單位,所以個體又稱為觀察單位

? ? ? 例:分析業務人員的報銷費用,則人為觀察單位

2、變量:根據研究目的確定研究對象,然后對研究對象的某項目的或研究指標進行觀察(或測量),這種觀察項目或研究指標稱為變量(variable);

連續變量(continuous variable):也叫區間變量。取值范圍是一個區間,可以在該區間中連續取值,并且一般有度量單位。例:身高、體重、金額

? ? ? 特點:有大小之分,各取值之間的間距明確

離散型變量(discrete variable):取值范圍是有限個值或者一個序列構成的。

分類變量:表示分類情況的離散型變量又稱為分類變量

有序分類變量:例:服務滿意度(滿意、一般、不滿意)

? ? ? 特點:有大小之分,但是各類別間的間距大小不明。比如“高”和“中”之間的差距與“中”和“低”之間的差距我們無法判斷相差多少

無序分類變量:例:血型(A、O)、民族(汗、滿)

? ? ?特點:無大小之分,僅知道屬于不同類別

兩分類變量(單獨摘出):性別(男、女)

連續變量、有序變量、無需變量間的信息量越來越少,在丟棄一部分信息量的前提下,可以將變量向信息量減少的方向轉換。類別超過5類的時候可以把類別編碼做逆向轉換。

3、變異:同質個體的某指標(變量)值的差異稱為個體變異(individual variable)

統計學就是研究變異規律的學科,不存在變異的問題不屬于統計學的研究范疇?;蛘哒f正是因為存在變異,才有了統計學的用武之地。

對于無變異的常量問題,或者嚴格的數學函數問題,并非統計學的應用領域。

4、總體(population):根據研究目的確定的同質所有個體某指標觀察值(測量值)的集合。

? ? ?有限總體(finite population):數量穩定

? ? ?無限總體(infinite population):不知道數量,例:糖尿病人口 可能在隨時發生變化

5、樣本(sample):在一個較大范圍的研究對象中隨機抽出一部分個體進行觀察或測量,這些個體的測量值構成的集合被稱為樣本。

6、隨機抽樣(random sampling):在抽樣研究中隨機抽出一部分個體進行觀察或測量的過程稱為隨機抽樣。

本質:每個個體最終是否入選在抽樣進行前是不可知的,但是其入選可能性是確切可知的(多數情況下為等概率)

注意:隨機 != 隨便

7、統計量(statistic):刻畫樣本特征的統計指標稱為統計量。(平均水平、離散程度)

8、總體參數(parameter):刻畫總體特征的指標稱為總體參數,例如總體中某個指標的個體變量值的平均數稱為總體平均數。

9、推估:從樣本的統計量回推總體參數。

10、抽樣誤差(simple error):許多總體指標是未知的,需要用相應的樣本統計量對其進行估計。由隨機抽樣造成的樣本統計量與總體指標之間的差異稱為抽樣誤差。

11、隨機事件:隨機現象某個可能的觀察結果稱為一個隨機事件。如:扔一次硬幣正面朝上,這個結果就是一次隨機事件。

12、頻率(frequency):觀察到的隨機事件某個結局的出現頻次/比例。

13、概率(probability):刻畫隨機事件發生可能性大小的指標,其取值介于0和1之間。不能被直接觀察到,但可以通過頻率估計,實驗次數越多,估計約精確。

14、小概率事件:在統計學中,如果隨機事件發生的概率小于或等于0.05,則認為是一個小概率事件,表示該事件在大多數情況下不會發生,并且一般認為小概率事件在一次隨機抽樣中不會發生,這就是小概率原理。小概率原理是統計推斷的基礎。

15、頻數(Frequency):又稱“次數”。指變量值中代表某種特征的數(標志值)出現的次數。按分組依次排列的頻數構成頻數數列,用來說明各組標志值對全體標志值所起作用的強度。各組頻數的總和等于總體的全部單位數。頻數的表示方法,既可以用表的形式,也可以用圖形的形式

三、統計研究的基本步驟

1、研究設計:最關鍵的步驟

過程:選題->明確研究目的->提出假設->明確總體范圍->確立觀察指標->控制研究中的偏倚->給出具體的研究方案

2、收集數據

質量控制極為重要

Garbage in,Garbage out

3、整理數據:占用80%工作量,也就是IT中的數據清洗

4、分析數據

統計描述:了解樣本數據的情況,是全部工作的基礎,是盡量精確,直觀而全面的對所獲得的樣本進行呈現

為了達到這一目的,需要使用一系列專門的統計描述指標

指標的呈現方式

? ? ?統計圖:精美、直觀、但精確度稍差

? ? ?統計報表:能盡量詳細,精確,但不夠直觀

統計推斷:從樣本信息反推到總體,以最終獲得所感興趣問題的解答

參數估計:樣本 -> 所在總體特征

? ? ? 例:該配件的日平均用量是多少?

假設檢驗:該指標可能的影響因素分析

? ? ? ?例:和晴天相比,雨天的配件用量是否更低? 晴天、雨天就是影響因素

?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,401評論 6 531
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,011評論 3 413
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事?!?“怎么了?”我有些...
    開封第一講書人閱讀 175,263評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,543評論 1 307
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,323評論 6 404
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 54,874評論 1 321
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 42,968評論 3 439
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,095評論 0 286
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,605評論 1 331
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,551評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,720評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,242評論 5 355
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 43,961評論 3 345
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,358評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,612評論 1 280
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,330評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,690評論 2 370

推薦閱讀更多精彩內容