一、統計學和生活的關系
工作和生活中都會有大量的隨機現象出現。比如:同班同學畢業數年之后事業發展狀況可以有很大差異;同樣年齡性別,身高體重不同……
那什么叫做隨機現象呢?
當一件事情只有一次或兩次出現時,它的結局可能是未知的,但是當它反復重復出現的時候,它的結局就會出現一種規律,這就叫隨機現象。人類社會絕大部分現象都是隨機現象,所有隨機現象的規律只在大量重復時才會體現,而統計學的任務就是找到隨機現象的發生規律,從而將不確定性事件變為可估計、可預測的確定性結果。
二、統計學的基本概念
1、個體:個體是指統計分析根據研究目的所確定的最基本的研究對象單位,所以個體又稱為觀察單位
? ? ? 例:分析業務人員的報銷費用,則人為觀察單位
2、變量:根據研究目的確定研究對象,然后對研究對象的某項目的或研究指標進行觀察(或測量),這種觀察項目或研究指標稱為變量(variable);
連續變量(continuous variable):也叫區間變量。取值范圍是一個區間,可以在該區間中連續取值,并且一般有度量單位。例:身高、體重、金額
? ? ? 特點:有大小之分,各取值之間的間距明確
離散型變量(discrete variable):取值范圍是有限個值或者一個序列構成的。
分類變量:表示分類情況的離散型變量又稱為分類變量
有序分類變量:例:服務滿意度(滿意、一般、不滿意)
? ? ? 特點:有大小之分,但是各類別間的間距大小不明。比如“高”和“中”之間的差距與“中”和“低”之間的差距我們無法判斷相差多少
無序分類變量:例:血型(A、O)、民族(汗、滿)
? ? ?特點:無大小之分,僅知道屬于不同類別
兩分類變量(單獨摘出):性別(男、女)
連續變量、有序變量、無需變量間的信息量越來越少,在丟棄一部分信息量的前提下,可以將變量向信息量減少的方向轉換。類別超過5類的時候可以把類別編碼做逆向轉換。
3、變異:同質個體的某指標(變量)值的差異稱為個體變異(individual variable)
統計學就是研究變異規律的學科,不存在變異的問題不屬于統計學的研究范疇?;蛘哒f正是因為存在變異,才有了統計學的用武之地。
對于無變異的常量問題,或者嚴格的數學函數問題,并非統計學的應用領域。
4、總體(population):根據研究目的確定的同質所有個體某指標觀察值(測量值)的集合。
? ? ?有限總體(finite population):數量穩定
? ? ?無限總體(infinite population):不知道數量,例:糖尿病人口 可能在隨時發生變化
5、樣本(sample):在一個較大范圍的研究對象中隨機抽出一部分個體進行觀察或測量,這些個體的測量值構成的集合被稱為樣本。
6、隨機抽樣(random sampling):在抽樣研究中隨機抽出一部分個體進行觀察或測量的過程稱為隨機抽樣。
本質:每個個體最終是否入選在抽樣進行前是不可知的,但是其入選可能性是確切可知的(多數情況下為等概率)
注意:隨機 != 隨便
7、統計量(statistic):刻畫樣本特征的統計指標稱為統計量。(平均水平、離散程度)
8、總體參數(parameter):刻畫總體特征的指標稱為總體參數,例如總體中某個指標的個體變量值的平均數稱為總體平均數。
9、推估:從樣本的統計量回推總體參數。
10、抽樣誤差(simple error):許多總體指標是未知的,需要用相應的樣本統計量對其進行估計。由隨機抽樣造成的樣本統計量與總體指標之間的差異稱為抽樣誤差。
11、隨機事件:隨機現象某個可能的觀察結果稱為一個隨機事件。如:扔一次硬幣正面朝上,這個結果就是一次隨機事件。
12、頻率(frequency):觀察到的隨機事件某個結局的出現頻次/比例。
13、概率(probability):刻畫隨機事件發生可能性大小的指標,其取值介于0和1之間。不能被直接觀察到,但可以通過頻率估計,實驗次數越多,估計約精確。
14、小概率事件:在統計學中,如果隨機事件發生的概率小于或等于0.05,則認為是一個小概率事件,表示該事件在大多數情況下不會發生,并且一般認為小概率事件在一次隨機抽樣中不會發生,這就是小概率原理。小概率原理是統計推斷的基礎。
15、頻數(Frequency):又稱“次數”。指變量值中代表某種特征的數(標志值)出現的次數。按分組依次排列的頻數構成頻數數列,用來說明各組標志值對全體標志值所起作用的強度。各組頻數的總和等于總體的全部單位數。頻數的表示方法,既可以用表的形式,也可以用圖形的形式
三、統計研究的基本步驟
1、研究設計:最關鍵的步驟
過程:選題->明確研究目的->提出假設->明確總體范圍->確立觀察指標->控制研究中的偏倚->給出具體的研究方案
2、收集數據
質量控制極為重要
Garbage in,Garbage out
3、整理數據:占用80%工作量,也就是IT中的數據清洗
4、分析數據
統計描述:了解樣本數據的情況,是全部工作的基礎,是盡量精確,直觀而全面的對所獲得的樣本進行呈現
為了達到這一目的,需要使用一系列專門的統計描述指標
指標的呈現方式
? ? ?統計圖:精美、直觀、但精確度稍差
? ? ?統計報表:能盡量詳細,精確,但不夠直觀
統計推斷:從樣本信息反推到總體,以最終獲得所感興趣問題的解答
參數估計:樣本 -> 所在總體特征
? ? ? 例:該配件的日平均用量是多少?
假設檢驗:該指標可能的影響因素分析
? ? ? ?例:和晴天相比,雨天的配件用量是否更低? 晴天、雨天就是影響因素