隨機變量概述
隨機變量與事件
隨機變量的本質是一種函數(映射關系),在古典概率模型中,“事件和事件的概率”是核心概念;但是在現代概率論中,“隨機變量及其取值規律”是核心概念。
隨機變量的分類
隨機變量從其可能取的值全體的性質可以分為兩大類:離散型隨機變量和連續型隨機變量。
離散型隨機變量
離散型隨機變量的取值在整個實數軸上是間隔的,要么只有有限個取值,要么是無限可數的。
常見的離散型隨機變量包括以下幾種:
0-1分布(也叫兩點分布或伯努利分布,bernouli distribution)
又叫做0-1分布,指一次隨機試驗,結果只有兩種。也就是一個隨機變量的取值只有0和1。
最簡單的例子就是,拋一次硬幣,預測結果為正還是反。二項分布(binomial distrubution)
表示n次伯努利實驗的結果。
例子就是,求多次拋硬幣,預測結果為正面的次數。
P(X=0) = 1/32
P(X=1) = 5/32
P(X=2) = 10/32 = 5/16
P(X=3) = 10/32 = 5/16
P(X=4) = 5/32
P(X=5) = 1/32
這是隨機變量X 表示五次拋硬幣出現的正面的次數;
二項分布的期望值公式:E(X) = np
-
幾何分布
幾何分布概率質量函數 泊松分布
泊松分布就是描述某段時間內,事件具體的發生概率。
日常生活中,大量事件是有固定頻率的。
某醫院平均每小時出生3個嬰兒
某公司平均每10分鐘接到1個電話
某超市平均每天銷售4包xx牌奶粉
某網站平均每分鐘有2次訪問
它們的特點就是,我們可以預估這些事件的總數,但是沒法知道具體的發生時間。
泊松分布的圖形大概是下面的樣子。
可以看到,在頻率附近,事件的發生概率最高,然后向兩邊對稱下降,即變得越大和越小都不太可能。
- 超幾何分布
一個袋子中有n個球,其中r個是黑球,n-r是白球,從袋中取出m個球,讓X表示取出球中的黑球的個數,那么X是一個符合超幾何分布(hypergeometric distribution)的隨機變量。
連續型隨機變量
連續型隨機變量的取值要么包括整個實數集(?∞,+∞),要么在一個區間內連續,總之這類隨機變量的可能取值要比離散型隨機變量的取值多得多,它們的個數是無限不可數的。
常見的連續型隨機變量包括以下幾種:
-
均勻分布
均勻分布概率密度函數 指數分布
指數分布是事件的時間間隔的概率。下面這些都屬于指數分布。
嬰兒出生的時間間隔
來電的時間間隔
奶粉銷售的時間間隔
網站訪問的時間間隔
指數分布的公式可以從泊松分布推斷出來。
指數分布的圖形大概是下面的樣子。
可以看到,隨著間隔時間變長,事件的發生概率急劇下降,呈指數式衰減。
-
正態分布
正態分布是比較常見的,最常用的分布就是正態分布(normal distribution),也稱為高斯分布 (Gaussian distribution),譬如學生考試成績的人數分布等。
正太分布概率密度函數
隨機變量的基本性質
隨機變量最主要的性質是其所有可能取到的這些值的取值規律,即取到的概率大小。如果我們把一個隨機變量的所有可能的取值的規律都研究透徹了,那么這個隨機變量也就研究透徹了。隨機變量的性質主要有兩類:一類是大而全的性質,這類性質可以詳細描述所有可能取值的概率,例如累積分布函數和概率密度函數;另一類是找到該隨機變量的一些特征或是代表值,例如隨機變量的方差或期望等數字特征。