@[toc]
第三章 概率與信息論
掌握深度學習中所需要的概率論相關知識
概率論[p47-p71]
3.1 為什么要使用概率
機器學習通常必須處理不確定量,有時也可能需要處理隨機(非確定性的) 量。概率論了以來量化不確定性。不確定性的三種可能來源:
- 概率論來量化不確定性
- 不完全觀測。
- 不完全建模。
-
信任度(degree of belief)
用概率來表示,其中表示肯定,而
表示否定。
- 頻率派概率(frequentist probability)直接與事件發生的頻率相關的概率;
-
貝葉斯概率(Bayesian probability),涉及到確定性水平的概率,比如
和
。
3.2 隨機變量
-
隨機變量(random variable)是可以隨機地取不同值的變量。用無格式小寫字母表示隨機變量,如
,用手寫體的小寫字母表示隨機變量取值,如
。
3.3 概率分布
-
概率分布(probability distribution):用來描述隨機變量或一簇隨機變量在每一
個可能取到的狀態的可能性大小。
3.3.1 離散型變量和概率質量函數
-
概率質量函數(probability mass function, PMF):描述離散型變量的概率分布,用大寫字母
表示,國內也叫作概率分布律。如
表示隨機變量
的分布,且必須滿足一下條件:
-
的定義域必須是
所有可能狀態的集合。
-
歸一化的(normalized):
-
聯合概率分布(joint probability distribution):多個隨機變量的概率分布,用
表示,簡寫為
。
均勻分布(uniform distribution):將它的每個狀態視為等可能的
3.3.2 連續型變量和概率密度函數
-
概率密度函數(probabilitydensity function, PDF):描述連續型隨機變量的概率分布,用小寫字母
表示。如
表示隨機變量
的分布,且必須滿足一下條件:
-
的定義域必須是
所有可能狀態的集合。
-
注意,并不要求
。
-
均勻分布(uniform distribution):將它的每個狀態視為等可能的,通常用
表示
在
上是均勻分布的
3.4 邊緣概率
邊緣概率分布(marginal probability
distribution):已知一組變量的聯合概率分布,其子集的概率分布。-
求和法則(sum rule):
- 離散型隨機變量
和
,并且已知道
,求取
- 連續型隨機變量,求取邊緣概率分布:
- 離散型隨機變量
3.5 條件概率
-
條件概率(norm):某個事件在給定其他事件發生時出現的概率。給定
,
發生的條件概率記為
。
- 干預查詢(intervention query):計算一個行動的后果,屬于因果模型(causal modeling)的范疇。
3.6 條件概率的鏈式法則
- 鏈式法則(chain rule)或者乘法法則(product rule):任何多維隨機變量的聯合概率分布,都可以分解成只有一個變量的條件概率相乘的形式:
3.7 獨立性和條件獨立性
- 兩個隨機變量是相互獨立的(independent),記為
.
- 兩個隨機變量是條件獨立的(conditionally independent),記為
.
3.8 期望、方差和協方差
-
函數
關于某分布
的期望(expectation) 或者期望值(expected value)是指,當
由
產生,
作用于
時,
的平均值。
- 離散型隨機變量
- 連續型隨機變量
- 離散型隨機變量
方差(variance value):衡量當對
依據它的概率分布進行采樣時,隨機變量
的函數值會呈現多大的差異。方差的平方根被稱為標準差(standard deviation)。
- 協方差(covariance value):衡量了兩個變量線性相關性的強度。協方差為正,說明正相關;協方差為負,說明為負相關,
相關系數(correlation)將每個變量的貢獻歸一化,為了只衡量變量的相關性而不受各個變量尺度大小的影響。
協方差矩陣(covariance matrix):
3.9 常用概率分布
3.9.1 Bernoulli 分布
- Bernoulli 分布(Bernoulli distribution),又叫伯努利分布,是單個二值隨機變量的分布。
3.9.2 Multinoulli 分布
-
Multinoulli 分布(multinoulli distribution),又叫范疇分布(categorical distribution),指在具有
個不同狀態的單個離散型隨機變量上的分布,其中
是一個有限值。
3.9.3 高斯分布
- 高斯分布(Gaussian distribution),實數上最常用的分布,也稱為正態分布(normal distribution):
標準正態分布(standard normal distribution),其中
。
中心極限定理(central limit theorem)說明很多獨立隨機變量的和近似服從正態分布。
多維正態分布(multivariate normal distribution):將正態分布推廣到
的情況:
3.9.4 指數分布和Laplace分布
-
指數分布(exponential distribution):一種在
點處取得邊界點(sharp point) 的分布。使用指示函數(indicator function)
來使得當
取負值時的概率為零。
-
Laplace 分布(Laplace distribution),它允許我們
在任意一點處設置概率質量的峰值
3.9.5 Dirac 分布和經驗分布
-
Dirac delta函數(Dirac delta function):概率分布中的所有質量都集中在一個點上。概率密度函數用
,也被稱為沖激函數。
-
經驗分布(empirical distribution):將概率密度
賦給
個點
中的每一個,這些點是給定的
數據集或者采樣的集合。
3.9.6 分布的混合
- 混合分布(mixture distribution):通過組合一些簡單的概率分布來定義新的概率分布,由一些組件(component)分布構成。
-
高斯混合模型(Gaussian Mixture Model),它的組件
是高斯分布。每個組件都有各自的參數,均值
和協方差矩陣
。它是概率密度的萬能近似器(universal
approximator),任何平滑的概率密度都可以用具有足夠多組件的高斯混合模型以任意精度來逼近。 -
先驗概率(prior probability):在觀測到
之前傳遞給模型關于
的信念
.
-
后驗概率(posterior probability):在觀測到
之后進行計算的概率
3.10 常用函數的有用性質
-
logistic sigmoid 函數:取值范圍
,常被用作深度學習中的激活函數。缺點:在變量取絕對值非常大的正值或負值時會出現飽和(saturate)現象,造成梯度消失。
-
softplus 函數:取值范圍
,它是對
函數的平滑或“軟化”。
3.11 貝葉斯規則
-
貝葉斯規則(Bayes’ rule):在已知
時計算
。
3.12 連續型變量的技術細節
- 零測度(measure zero):零測度集在我們的度量空間中不占有任何的體積。
- 幾乎處處(almost everywhere):某個性質如果是幾乎處處都成立的,那么它在整個空間中除了一個測度為零的集合以外都是成立的。
- Jacobian 矩陣(Jacobian matrix):
3.13 信息論
- 滿足下面三個性質,我們定義一個事件
的自信息(self-information)為:
- 非??赡馨l生的事件信息量要比較少;
- 較不可能發生的事件具有更高的信息量;
- 獨立事件應具有增量的信息。
- 香農熵(Shannon entropy)來對整個概率分布中的不確定性總量進行量化:
-
KL 散度(Kullback-Leibler (KL) divergence):衡量這兩個單獨的概率分布
和
的差異,具有不對稱性
- 交叉熵(cross-entropy):
3.14 結構化概率模型
-
結構化概率模型(structured probabilistic model)或者圖模型(graphical model):由一些可以通過邊互相連接的頂點的集合構成的圖來表示概率分布的分解。有兩種主要的結構化概率模型:有向的和無向的。兩種圖模型都使用圖
,其中
圖的每個節點對應著一個隨機變量。- 有向(directed)模型使用帶有有向邊的圖,它們用條件概率分布來表示分解。
- 無向(undirected)模型使用帶有無向邊的圖,它們將分解表示成一組函數;