花書第三章筆記

@[toc]

第三章 概率與信息論

掌握深度學習中所需要的概率論相關知識

概率論[p47-p71]

3.1 為什么要使用概率

機器學習通常必須處理不確定量,有時也可能需要處理隨機(非確定性的) 量。概率論了以來量化不確定性。不確定性的三種可能來源:

  1. 概率論來量化不確定性
  2. 不完全觀測。
  3. 不完全建模。
  • 信任度(degree of belief)
    用概率來表示,其中1表示肯定,而0表示否定。
  • 頻率派概率(frequentist probability)直接與事件發生的頻率相關的概率;
  • 貝葉斯概率(Bayesian probability),涉及到確定性水平的概率,比如10。

3.2 隨機變量

  • 隨機變量(random variable)是可以隨機地取不同值的變量。用無格式小寫字母表示隨機變量,如\textrm{x},用手寫體的小寫字母表示隨機變量取值,如x_{1}。

3.3 概率分布

  • 概率分布(probability distribution):用來描述隨機變量或一簇隨機變量在每一
    個可能取到的狀態的可能性大小。

3.3.1 離散型變量和概率質量函數

  • 概率質量函數(probability mass function, PMF):描述離散型變量的概率分布,用大寫字母P 表示,國內也叫作概率分布律。如P(x)表示隨機變量\textrm{x}的分布,且必須滿足一下條件:

    • P的定義域必須是\textrm{x}所有可能狀態的集合。
    • \forall x \in \textrm{x},0 \leq P(x)\leq 1.
    • 歸一化的(normalized):\sum _{x \in \mathrm{x}}P(x)=1
  • 聯合概率分布(joint probability distribution):多個隨機變量的概率分布,用P(x=\textrm{x},y=\textrm{y})表示,簡寫為P(x,y)

  • 均勻分布(uniform distribution):將它的每個狀態視為等可能的

P(\textrm{x}=x_{i})=\frac{1}{k}

3.3.2 連續型變量和概率密度函數

  • 概率密度函數(probabilitydensity function, PDF):描述連續型隨機變量的概率分布,用小寫字母p 表示。如p(x)表示隨機變量\textrm{x}的分布,且必須滿足一下條件:

    • p的定義域必須是\textrm{x}所有可能狀態的集合。
    • \forall x \in \textrm{x},p(x)\geq 0.注意,并不要求p(x)\leq 1。
    • \int p(x)dx=1
  • 均勻分布(uniform distribution):將它的每個狀態視為等可能的,通常用x \sim U(a; b) 表示x[a; b] 上是均勻分布的

3.4 邊緣概率

  • 邊緣概率分布(marginal probability
    distribution):已知一組變量的聯合概率分布,其子集的概率分布。

  • 求和法則(sum rule):

    • 離散型隨機變量xy,并且已知道P(x; y),求取P(x)

    \forall x \in \textrm{x},P(\textrm{x}=x)=\sum _{y}P(\textrm{x}=x,\textrm{y}=y)

    • 連續型隨機變量,求取邊緣概率分布:
      p(x)=\int p(x,y)dy

3.5 條件概率

  • 條件概率(norm):某個事件在給定其他事件發生時出現的概率。給定\textrm{x}=x,\textrm{y}=y發生的條件概率記為P(\textrm{y} = y \mid \textrm{x} = x)。

P(\textrm{y} = y \mid \textrm{x} = x)=\frac{P(\textrm{y} = y , \textrm{x} = x)}{P(\textrm{x} = x)}

  • 干預查詢(intervention query):計算一個行動的后果,屬于因果模型(causal modeling)的范疇。

3.6 條件概率的鏈式法則

  • 鏈式法則(chain rule)或者乘法法則(product rule):任何多維隨機變量的聯合概率分布,都可以分解成只有一個變量的條件概率相乘的形式:

P(\mathrm{x}^{(1)},\cdots ,\mathrm{x}^{(n)})=P(\mathrm{x}^{(1)})\prod_{i=2}^{n}P (\mathrm{x}^{(i)}\mid \mathrm{x}^{(1)},\cdots ,\mathrm{x}^{(i-1)})

3.7 獨立性和條件獨立性

  • 兩個隨機變量是相互獨立的(independent),記為\mathrm{x}\perp \mathrm{y}.

\forall x \in \mathrm{x},y \in \mathrm{y},p(\mathrm{x}=x,\mathrm{y}=y)=p(\mathrm{x}=x)p(\mathrm{y}=y)

  • 兩個隨機變量是條件獨立的(conditionally independent),記為\mathrm{x}\perp \mathrm{y} \mid \mathrm{z}.

\forall x \in \mathrm{x},y \in \mathrm{y},p(\mathrm{x}=x,\mathrm{y}=y \mid \mathrm{z}=z)=p(\mathrm{x}=x \mid \mathrm{z}=z)p(\mathrm{y}=y \mid \mathrm{z}=z)

3.8 期望、方差和協方差

  • 函數f(x) 關于某分布P(x)期望(expectation) 或者期望值(expected value)是指,當xP 產生,f 作用于x 時,f(x) 的平均值。

    • 離散型隨機變量
      \mathbb{E}_{\mathrm{x}\sim P}[f(x)]=\sum _{x} P(x)f(x)
    • 連續型隨機變量
      \mathbb{E}_{\mathrm{x}\sim p}[f(x)]=\int _{x} p(x)f(x)dx
  • 方差(variance value):衡量當對x依據它的概率分布進行采樣時,隨機變量x 的函數值會呈現多大的差異。方差的平方根被稱為標準差(standard deviation)。

\mathrm{Var}(f(x))=\mathbb{E}[(f(x)-\mathbb{E}[f(x)])^{2}]

  • 協方差(covariance value):衡量了兩個變量線性相關性的強度。協方差為正,說明正相關;協方差為負,說明為負相關,

\mathrm{Cov}(f(x),g(y))=\mathbb{E}[(f(x)-\mathbb{E}[f(x)])(g(y)-\mathbb{E}[g(y)])]

  • 相關系數(correlation)將每個變量的貢獻歸一化,為了只衡量變量的相關性而不受各個變量尺度大小的影響。

  • 協方差矩陣(covariance matrix):

\mathrm{Cov}(\mathrm{x})_{i,j}=\mathrm{Cov}(\mathrm{x_i,y_j})

\mathrm{Cov}(\mathrm{x})_{i,j}=\mathrm{Var}(\mathrm{x_i})

3.9 常用概率分布

3.9.1 Bernoulli 分布

  • Bernoulli 分布(Bernoulli distribution),又叫伯努利分布,是單個二值隨機變量的分布。

P(\mathrm{x}=x)=\phi ^{x}(1-\phi)^{1-x}

\mathbb {E}_{\mathrm{x}}[\mathrm{x}]=\phi,\mathrm{Var}_{\mathrm{x}}(x)=\phi(1-\phi)

3.9.2 Multinoulli 分布

  • Multinoulli 分布(multinoulli distribution),又叫范疇分布(categorical distribution),指在具有k個不同狀態的單個離散型隨機變量上的分布,其中k 是一個有限值。

3.9.3 高斯分布

  • 高斯分布(Gaussian distribution),實數上最常用的分布,也稱為正態分布(normal distribution):

\mathcal{N}(x;\mu,\sigma ^2 )=\sqrt{\frac{1}{2\pi\sigma^{2}}}\mathrm{exp}(-\frac{1}{2\sigma^{2}}(x-\mu)^{2})

  • 標準正態分布(standard normal distribution),其中\mu = 0,\sigma = 1。

  • 中心極限定理(central limit theorem)說明很多獨立隨機變量的和近似服從正態分布。

  • 多維正態分布(multivariate normal distribution):將正態分布推廣到\mathbb{R}^{n}的情況:

\mathcal{N}(\boldsymbol{x};\boldsymbol{\mu},\boldsymbol{\Sigma })=\sqrt{\frac{1}{(2\pi)^{n}\mathrm{det}(\boldsymbol{\Sigma }))}}\mathrm{exp}(-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu})^{T}\boldsymbol{\Sigma }^{-1}(\boldsymbol{x}-\boldsymbol{\mu}))

3.9.4 指數分布和Laplace分布

  • 指數分布(exponential distribution):一種在x = 0 點處取得邊界點(sharp point) 的分布。使用指示函數(indicator function)\mathbf{1}_{x\geq 0}來使得當x 取負值時的概率為零。

p(x;\lambda)=\lambda\mathbf{1}_{x\geq 0}\exp (-\lambda x)

  • Laplace 分布(Laplace distribution),它允許我們
    在任意一點\mu處設置概率質量的峰值

\mathrm{Laplace}(x;\mu,\gamma)=\frac{1}{2 \gamma} \exp (-\frac{\left | x-\mu \right |}{\gamma})

3.9.5 Dirac 分布和經驗分布

  • Dirac delta函數(Dirac delta function):概率分布中的所有質量都集中在一個點上。概率密度函數用\delta(x),也被稱為沖激函數。

p(x)=\delta(x-\mu)

  • 經驗分布(empirical distribution):將概率密度\frac{1}{m} 賦給m 個點x^{(1)}, \cdots, x^{(m)} 中的每一個,這些點是給定的
    數據集或者采樣的集合。

\hat{p}(\boldsymbol{x})=\frac{1}{m}\sum_{i=1}^{m}\delta(\boldsymbol{x}-\boldsymbol{x}^{(i)})

3.9.6 分布的混合

  • 混合分布(mixture distribution):通過組合一些簡單的概率分布來定義新的概率分布,由一些組件(component)分布構成。

P(\mathrm{x})=\sum _{i}P(\mathrm{c}=i)P(\mathrm{x} \mid \mathrm{c}=i)

  • 高斯混合模型(Gaussian Mixture Model),它的組件p(\mathrm{x} \mid \mathrm{c} = i) 是高斯分布。每個組件都有各自的參數,均值\mu^{(i)} 和協方差矩陣\Sigma ^{(i)}。它是概率密度的萬能近似器(universal
    approximator),任何平滑的概率密度都可以用具有足夠多組件的高斯混合模型以任意精度來逼近。
  • 先驗概率(prior probability):在觀測到\mathrm{x}之前傳遞給模型關于\mathrm{c} 的信念\alpha=P(\mathrm{c}=i).
  • 后驗概率(posterior probability):在觀測到\mathrm{x}之后進行計算的概率P(\mathrm{c}\mid \boldsymbol{x})

3.10 常用函數的有用性質

  • logistic sigmoid 函數:取值范圍(0,1),常被用作深度學習中的激活函數。缺點:在變量取絕對值非常大的正值或負值時會出現飽和(saturate)現象,造成梯度消失。

\sigma (x)=\frac{1} {1+\exp {(-x)}}

\frac{\mathrmmqyqmks }{\mathrmkwfd5hc x}\sigma (x)=\sigma (x)(1-\sigma (x))

  • softplus 函數:取值范圍(0,\infty ),它是對x^+=\max(0,x)函數的平滑或“軟化”。

\zeta (x)=\log (1+\exp(x))

3.11 貝葉斯規則

  • 貝葉斯規則(Bayes’ rule):在已知P(\mathrm{y} \mid \mathrm{x})時計算P(\mathrm{x} \mid \mathrm{y})。

P(\mathrm{x}\mid \mathrm{y})=\frac {P(\mathrm{x})P(\mathrm{y}\mid\mathrm{x})} {P(\mathrm{y})}

3.12 連續型變量的技術細節

  • 零測度(measure zero):零測度集在我們的度量空間中不占有任何的體積。
  • 幾乎處處(almost everywhere):某個性質如果是幾乎處處都成立的,那么它在整個空間中除了一個測度為零的集合以外都是成立的。
  • Jacobian 矩陣(Jacobian matrix):

J_{i,j}=\frac{\partial x_i}{\partial y_j}

3.13 信息論

  • 滿足下面三個性質,我們定義一個事件\mathrm{x} = x自信息(self-information)為:
    • 非??赡馨l生的事件信息量要比較少;
    • 較不可能發生的事件具有更高的信息量;
    • 獨立事件應具有增量的信息。

I(x)=-\log P(x)

  • 香農熵(Shannon entropy)來對整個概率分布中的不確定性總量進行量化:

H(\mathrm{x})=\mathbb{E}_{\mathrm{x}\sim P}[I(x)]=-\mathbb{E}_{\mathrm{x}\sim P}[\log P(x)]

  • KL 散度(Kullback-Leibler (KL) divergence):衡量這兩個單獨的概率分布P(x)Q(x)的差異,具有不對稱性D_{KL}(P \| Q)\neq D_{KL}(Q \| P)

D_{\mathrm{KL}}(P \| Q)=\mathbb{E}_{\mathrm{x} \sim P}[\log \frac{P(x)} {Q(x)}]=\mathbb{E}_{\mathrm{x} \sim P}[\log P(x)-\log Q(x)]

  • 交叉熵(cross-entropy):

H(P,Q)=H(P)+D_{\mathrm{KL}}(P \| Q)=-\mathbb{E}_{\mathrm{x} \sim P}[\log Q(x)

3.14 結構化概率模型

  • 結構化概率模型(structured probabilistic model)或者圖模型(graphical model):由一些可以通過邊互相連接的頂點的集合構成的圖來表示概率分布的分解。有兩種主要的結構化概率模型:有向的和無向的。兩種圖模型都使用圖\mathcal{G},其中
    圖的每個節點對應著一個隨機變量。

    • 有向(directed)模型使用帶有有向邊的圖,它們用條件概率分布來表示分解。

    p(\mathrm{x})=\prod _{i}p(\mathrm{x_i}\mid Pa_{\mathcal{G}}(\mathrm{x_i}))

    • 無向(undirected)模型使用帶有無向邊的圖,它們將分解表示成一組函數;

    p(\mathbf{\mathrm{x}})=\frac{1}{Z}\prod _{i}\phi ^{(i)}(\mathcal{C}^{(i)})

?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,250評論 6 530
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 97,923評論 3 413
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 175,041評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,475評論 1 308
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,253評論 6 405
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 54,801評論 1 321
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 42,882評論 3 440
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,023評論 0 285
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,530評論 1 331
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,494評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,639評論 1 366
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,177評論 5 355
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 43,890評論 3 345
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,289評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,552評論 1 281
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,242評論 3 389
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,626評論 2 370

推薦閱讀更多精彩內容