11 概率分布:認識現實世界的數學模型
隨機變量:把隨機事件可能的結果抽象成一個數字,每個數字對應一個概率,這個隨機變化的數字。
概率分布:把隨機變量所有的結果和它對應的概率全部統計出來
概率分布的作用:通過從整體上描述一個隨機事件的所有可能結果和對應概率分布情況,從總體上把握這件事的基本輪廓。
數學家解決問題的方式是抽象
概率分布模型是我們對現實規律的抽象,正態分布、冪律分布都是這樣的模型,分別代表一種概率分布規律。
12 正態分布:最簡單卻最重要的概率分布
高斯使用到正態分布計算出谷神星(人類發現的第一顆矮行星)的運行軌道。
性質一:均值就是期望
在正態分布中,平均值代表隨機事件的價值。
性質二:極端值很少
性質三:標準差決定胖瘦
eg:電腦開機時間打敗了全國97%的用戶,就是通過正態分布得到的,隨機抽取一部分用戶的開機數據,算出均值和標準差,就可以確定出一條正態分布曲線。
不同正態分布的分析比較:
第一,只有均值不同,能比較好壞
第二,只有標準差不同,能比較波動
eg:男女智商均值相同,但男性智商波動更大,在智商超群和智商堪憂的人中,男性數量多于女性
第三,均值和標準差都不同,能比較專業和業余
專業的均值更高,標準差更小,業余則相反。
13 中心極限定理:正態分布是概率分布的神
(1)合法性:中心極限定理提供保證
中心極限定理核心的數學性質——大量獨立的隨機變量相加,無論各個隨機變量的分布是怎樣的,它們相加的結果必定會趨向于正態分布。換句話說,正態分布是必然產生的。
中心極限定理是因,正態分布是果。因為中心極限定理存在,所以正態分布才必然正確。
正態分布公式——高斯
中心極限定理——拉普拉斯
(2)正統性:正態分布建立了一套穩定的秩序,就像參照系一樣,對所有的事物施加影響。
在統計學中,當我們不知道某個隨機事件服從什么分布的時候,最常見的方法就是假設它服從正態分布,然后再用數據驗證。
一方面,是由于正態分布非常常見,所以假設一個隨機事件服從正態分布,比假設其他分布的成功率更高。
另一方面,是因為正態分布能像神一樣,給我們指明分析的方向。
eg:如果驗證后發現,這個隨機事件不服從正態分布,那它就一定不滿足正態分布背后的中心極限定理。而不滿足中心極限定理,要么是它的影響因素不夠多,要么是各種影響因素不相互獨立,要么是某種影響因素的影響力太大等等……這時候,接下來的研究也就有了明確的方向。
(3)主宰性
第一,正態分布普遍存在
第二,所有分布不斷疊加后最后都會變成正態分布
第三,正態分布是世界的宿命
“熵最大原理”:在一個孤立的系統中,熵總是在不斷增大。
正態分布是所有已知均值和方差的分布中,信息熵最大的一種分布。
14 冪律分布:給人帶來希望的魔鬼
無標度:冪律分布唯一的數學特征。
“二八法則”:冪律分布的最直觀表現。
橫坐標,代表隨機變量的取值;縱坐標,代表發生的概率。
在隨機變量中,越小的數值,出現的概率越大;越大的數值,出現的概率則越小。
在任何觀測尺度下,冪律分布都呈現同樣的分布特征。
一般的分布都會有個尺度范圍,在這個范圍內服從這個分布,超過這個尺度可能就不服從這種分布了。而冪律分布沒有尺度的限制,不管截取任何一個部分,都仍然呈現冪律分布的特征。
eg:圖書銷量是服從冪律分布的,最暢銷那本書的銷量在前10名銷量中占的比例,和前10名的銷量在前100名的銷量中占的比例,和前100名在前1000名的總銷量中占的比例,大體都是相同的。
第一,冪律分布讓平均數失去意義
第二,冪律分布讓原本不會發生的極端事件發生
在數學上,這個叫“長尾”,也叫肥尾、厚尾。簡單說就是,雖然極端數據出現的概率很低,但這個概率永遠不會趨近于0,永遠不會小到可以忽略不計。
在正態分布里,數據非常集中,非常極端的數據幾乎不可能出現,可以直接忽略不不計。而在冪律分布里,再極端的數據都有出現的可能。
第三,冪律分布完全不可預測
eg:著名的“沙堆模型”,在平臺上不斷添加沙粒,慢慢形成一個沙堆。隨著沙堆高度的增加,新添加的沙粒會帶動沙堆表面其他沙粒滾落,產生所謂的“沙崩”。統計沙崩的規模和發生的頻率,科學家發現它服從冪律分布。
所有物理知識我們都掌握,而且能用計算機跟蹤每一粒沙子的位置,但仍然找不到沙堆崩塌的原因。既不知道在什么條件下,再放一粒沙子就會導致沙崩,也無法預測這粒沙子導致的沙崩規模會有多大。
冪律分布產生的原因,目前沒有統一答案。
在從有序到無序這個熵減過程中,冪律分布必然發生。
雖然冪律分布像魔鬼一樣狡詐、難以預料,但它可能是我們對抗熵增的必然選擇,是每個系統從無序到有序,從混沌到清晰,從未知世界到規律世界的必經之路。冪律分布存在的地方,看似兇險,卻恰恰是對抗熵增,對抗死寂,對抗死亡的角斗場,是我們的希望之光。
在自然界與日常生活中,包括地震規模大小的分布、月球表面上月坑直徑的分布、行星間碎片大小的分布、太陽耀斑強度的分布、計算機文件大小的分布、戰爭規模的分布、人類語言 中單詞頻率的分布、大多數國家姓氏 的分布、科學家撰寫的論文數的分 布、論文被引用的次數的分布、網頁 被點擊次數的分布、書籍及唱片的銷 售冊數或張數的分布、每類生物中物 種數的分布、甚至電影所獲得的奧斯卡獎項數的分布等,都是典型的冪律分布。