「量學堂-9」離散型和連續型隨機變量

隨機變量是根據偶然性取值的變量。我們在談到隨機變量時,通常是以“概率分布”的形式來描述他們。也即:隨機變量落在每一個可能的值上的概率。典型的例子就是擲骰子,它有著同等的概率生成數字1到6。

一般我們會把隨機變量劃分為兩類:

1、離散型隨機變量

2、連續型隨機變量

處理這兩類隨機變量的方式有所不同,但他們依據的原理是相同的。我們很容易便能看到基于隨機變量的模型在金融領域是如何派上用場的:金融資產價格的波動(這里指股價),常常按照“確定模型”和“隨機模型”兩者之一來解讀。而隨機模型是通過隨機變量來表示。在隨機模型中,我們在每個時間單位對隨機變量進行采樣,根據這些采樣結果得到隨機模型的參數,從將其作為一種金融工具來預測股價的變動。使用這種分析模式,是因為金融資產中的大部分價格波動無法通過確定性模型給出合理的解釋。

隨機變量遵從“概率分布”的,它是用來描述隨機變量的函數。這個概率分布函數囊括了隨機變量所有可能的取值情況下,所對應的概率。對于給定的隨機變量 X ,我們用符號P(X = x)表示隨機變量 X = x 的概率。對于離散型隨機變量,我們可以進一步簡寫為 p(x) 代替 P(X = x) 。這也被稱為概率質量函數(probability mass function,以下簡稱 PMF )。而對于連續性隨機變量我們不能使用 PMF ,這在后續章節會做進一步說明,我們只能使用概率密度函數 probability density function,以下簡稱 PDF )。概率分布函數又是 Black - Scholes 定價模型與二項式定價模型(典型的有資本資產定價模型 CAPM )的基礎。同樣的,如果你需要運算蒙特卡洛模擬,你也需要理解概率分布函數。

對于每個特定的概率分布函數( PDF ),都有與之對應的累計分布函數( CDF ),用符號 P(X ≤ x) 表示隨機變量X小于等于某一特定值的概率,我們同樣進一步簡寫為F(x) 代替 P(X ≤ x)。對于離散型隨機變量,我們對所有自變量值 ≤x 時,對應的PDF概率值進行求和,得到 F(x) 的概率值;對于連續性隨機變量,我們對所有自變量值 ≤x 時,對應的PDF曲線進行“積分”,得到 F(x) 的概率值。

離散型隨機變量

離散型隨機變量,是定義在一個可以窮盡的結果集中的變量。對于隨機變量可能出現的值,都有一個單獨的與之對應的概率。考慮一下拋硬幣或是擲骰子,它們都是遵循最基本的等概率均勻分布的離散型隨機變量。前者有兩種可能出現的結果,正面或反面,對應發生的概率都是1/2。然而,離散型隨機變量并非總是等概率分布的,而是由變量的概率質量函數p(x)決定的。函數為概率分布域中的每個點給出其可能出現的概率(質量)。

概率函數有兩個基本屬性:

1、0 ≤ p(x) ≤ 1

2、對于結果集中的所有情況,它們對應的概率之和為1

第一點,對于隨機變量出現的所有可能情況(比如骰子中的點數:1、2、3、4、5、6),每種情況對應的概率一定介于 0(一定不出現)和 1(100%會出現)之間。

第二點,由于離散型隨機變量結果集已經窮盡了所有可能出現的情況,因此總體來看,他們的并集是一個必然事件。(還是拿骰子舉例:骰子每次投擲出現的結果必然是落在數字1到6之間,也就是100%會落在1到6中的某個數字。當數字1出現的概率為 1/6 時,意味著可能出現其他5個數字的概率為 5/6 )

下面我們來看一些比較著名的離散概率分布例子。

離散型隨機變量的均勻分布

均勻分布是概率分布中最基本的類型。在離散型的均勻分布中,所有的結果都被賦予了同等權重(概率)。好比我們之前說的擲骰子,它有6個面,分別代表了從1到6不等的數字,每一個面可能出現的機會都是1/6。PMF就是取固定值的方式來表示:p(x) = 1/6 ,對于均勻隨機變量 X 的所有可能出現的情況,均成立。

我們知道每次擲骰子,各個面出現的機會都是同等的。我們先進行了十次投擲并將結果繪制成上圖所示,可以看到每個面出現的次數并不均勻(數字6出現了4次、數字五出現了2次,其他均出現了1次)。然后,我們逐步增加實驗次數。隨著擲骰子次數不斷增加,各個面出現的次數將會顯得越來越“均勻”,直到最后幾乎相同。

在進行了10000次的實驗后,我們可以很容易的發現:對于隨機變量X可能出現的所有結果,其對應的概率p(x) = 1/6。進一步地,通過擲骰子實驗,我們對其概率分布函數和累積分布函數總結如下:

通過上表,我們驗證了概率分布函數符合了前文所說的2個基本條件:每一種結果(骰子點數)出現的概率都落在了 [0,1] 的區間內;CDF證明了對于結果集中的所有情況,它們對應的概率之和為1

這里我們再來具體說一下CDF,其同樣具備兩個屬性:

1. 對于每個可能出現的結果 X = x,對應的 CDF 取值均落在 [0,1] 之間。這一點與 PDF 是相同的。

2. 對于每個可能出現的結果 X = x,對應的 CDF 取值呈現非下降趨勢。也即保持遞增或維持不變。

當嘗試對其他非均勻類型的概率分布進行采樣時,我們仍是由基于均勻分布的情況出發,按照某種相互組合的方式,獲得合適的樣本。由于這樣采樣會非常低效。我們將使用內建的Numpy函數來簡化采樣過程。

二項式分布

二項式分布被描述為“非成即敗”,在投資領域中往往能派上大用場。因為我們做出的很多抉擇都是基于此的二元選擇。當我們進行單次的“成/敗”實驗時,我們把它叫做伯努利實驗。對于伯努利實驗中的隨機變量,我們會得到兩個可能的結果:

我們用Y = 1代表成功,在單次試驗中成功事件發生的概率用 p 表示。因此,“失敗”的概率是 1-p 。

二項式分布是通過進行 n 次伯努利實驗得到的,實驗中“成功”的次數落在 [0,n] 的整數之間。每一次伯努利實驗中,“成功”的概率(p)是相同的,并且每次實驗都是相互獨立不受影響的。我們可以用 n 和 p 來描述整個二項式隨機變量,用符號 X ~ B(n, p) 標記,意為:X 是有關參數 n 和 p 的二項式隨機變量。

為了定義二項式隨機變量的概率函數,我們需要能夠從所有實驗次數中選出“成功”的那部分。這個想法運用了組合論中的組合思想。這個組合是指從集合中選擇項目的所有可能的方式,而無關乎選擇的順序。舉例來說,如果我們有6個彩球,我們從中挑出2個,我們用$\binom{6}{2}$符號表示所有可能的組合,通過計算得到:

這里,! 表示階乘,運算規則為:n ! = n (n-1) (n-2) ... 1。由此我們進一步得到了組合的通用計算公式:

我們使用上述符號的目的,是從二項式隨機變量中選出所有可能的“成功”事件組合。選出這個組合的目的,是計算有多少種不同的方式可以達到相同的結果。所得概率函數為:

關于方程可以這樣理解,我們先只考進行 n 次獨立的伯努利試驗,有 x 次成功的概率是:

在此基礎上,我們再考慮要達到規定的成功次數,可能的組合有多少種(比如5次實驗中成功3次,可以是第1,2,3次成功、第4,5次失敗,或是1,3,5次成功、第2,4次失敗等等),然后兩者相乘即為概率結果。這里 $X$ 是基于伯努利分布 B(n, p) 的二項隨機變量。

我們拿股價變動舉例,無論股價上漲還是下跌,概率均為 p = 0.5 。我們把上漲認作“成功”,記作 U,下跌認作“失敗”,記作D。這樣,我們就能用二項隨機變量來分析每一次實驗“成功”的概率。考慮以下情況:我們進行 n=5 次“伯努利股價”實驗:實驗的內容是觀察股價隨時間推移,股價5個交易日的波動情況,上漲(“成功”)或是下跌(“失敗”),下表顯示了股價“成功”次數的概率分布:

觀察表格結果,我們發現在 p = 0.50 時,二項分布 p(x) 是對稱的。這是由于我們將股價上漲/下跌認為是等概率的事件,這里唯一影響概率大小的就是滿足條件的“組合數”的多少,可以看到組合數一列自身也呈現對稱。當我們對 p 值進行微調,將得到非對稱的概率分布。

現在我們給出基于上述假設X~B(5, 0.5)的圖形化展現結果:

再次的,在采樣時,您所采集的樣本越多(實驗次數越多),得到的結果分布與理論上的就越一致:

假設我們修改參數,將概率調整為$p = 0.25$,那么要滿足股價5天全部下跌的事件概率變為了:

這會使得我們的分布函數向著“股價上漲次數較少”的一側移動。

將概率從 0.5 調整為 0.25 ,顯然使得我們的二項分布變得非對稱了。我們可以把這個伴隨有二項式隨機變量 x 的實驗結果,進一步擴展到我們稱之為“股價波動的二項式模型”的框架中。這是期權定價所用到的基礎之一。在二項式模型中,假設任何給定的時間段內,股價向上/向下的移動,是由各自的概率來決定的。那么股票價格將轉變為一個關于二項式隨機變量的函數、股價上漲/下跌的幅度、以及初始股價的參數求解問題。我們可以改變這些參數,以便近似模擬不同的“股價分布情況”。

連續型隨機變量

連續型隨機變量不同于離散型隨機變量,它存在無限多的結果(無限可分),這些結果無法被窮盡。我們給出某一個結果對應的概率是沒有意義的(因為連續型隨機變量產生的結果是無限的,落在任何一個“可能的結果”上的概率幾乎都為0)。

為此,我們可以變換一種方式——給出落在結果區間范圍上的概率,而非給出單個結果的概率,來解決這個問題。這個方法運用到了微積分。當然你無須太過擔心技術方面的問題,本章介紹中由于我們使用到了采樣技術,實際上并不會真正涉及到微積分的計算。

如前所述,討論連續型隨機變量為某個“結果”的概率,類似 P(X = 0), 是沒有意義的。取而代之的,我們通常是會去給出隨機變量落在某個區間范圍內的概率,類似 P(-1 < X < 1)。不同于離散型隨機變量使用概率質量函數來進行描述,對于連續型隨機變量來說,我們定義了一個 概率密度函數(以下簡稱PDF),fx(x) ,因此我們可以得到:

之前已經提到過,離散型分布下,隨機變量結果集對應的各自概率之和一定為 1。與之類似,這里我們要求:

值得注意的是,由于連續型分布中的每個點所對應的概率都為0,所以概率分布函數在某個區間范圍邊界點上的概率為0。因此你也就理解了下面的等式:

并且,如果 PDF 包含了連續型隨機變量所有可能結果,那么對函數“積分”(對隨機變量所有可能出現的結果的概率進行加總)得到的值應為1。

連續型隨機變量的均勻分布

均勻分布也可在連續型隨機變量的范圍內給出定義。我們不妨設兩個常數 a 和 b,分別代表了隨機變量結果集范圍中的最大值和最小值,那么隨機變量的 PDF 就是:

因為函數是定義在連續的區間內,概率密度函數將會覆蓋隨機變量落在a 和 b之前所有的可能情況。

我們來通過圖形化,觀察一個連續型隨機變量基于均勻分布的例子:

通過圖示我們看到,連續型隨機變量和離散型隨機變量的均勻分布是相類似的:對于所有“可能的結果 / 結果區間”,概率都是恒定的。唯一的區別在于,討論連續型隨機變量在某一點上的概率是沒有意義的。

恒定值的概率密度函數出發,不難求得均勻分布的連續型隨機變量,其累計密度函數為:

再次,我們通過圖形化來觀察一下:

連續型隨機變量的正態分布

正態分布是統計學中最為重要和常見的一種分布。許多經典的統計檢驗方法,都是基于正態為假設的,這些檢驗方法被廣泛應用于金融領域。

正態分布的背后有著中心極限定理(CLT)作為支撐,該定理指出,當獨立試驗的樣本量足夠多時,這些樣本呈現正態分布。也正因此,正態分布常被用于某些交易算法策略之中。例如配對交易算法,通過搜索配對股票并對其協整化,并將配對股票之間的價差波動看做是服從正態分布,從而預測股價走勢(配對交易會在后序章節進行介紹)。

談到正態隨機變量,我們一般通過均值和方差(標準差的平方)來進行描述。具體為,我們通過符號 X ~ N(μ, σ2) 來標記隨機變量 X 是正態隨機變量。在現代投資組合理論中,股票的漲跌幅通常被認為是服從正態分布的。正態隨機變量的一個主要特性是:由多個正態隨機變量通過線性關系疊加后形成的新隨機變量,仍然是正態隨機變量。基于這個特性,如果我們把含有多個股票的投資組合看做一個整體,那么它的收益率無疑是服從正態分布的(上一講我們已經說過,單個股票的每日收益是服從正態分布的),計算平均收益和方差將會很有意義。

直到剛才,我們一直在討論的是單個變量的概率分布。當我們想要一次性地描述多個隨機變量時,就好像剛才談到的投資組合中的多個股票那樣,我們可以觀察多變量分布(以下簡稱多元分布)。想要完整的描述多元正態分布,是通過對其中每一個變量統計均值、方差和顯著相關性來實現的。多元正態分布的這些“統計描述”指標,對于確定投資組合的特征是至關重要的,因為整體投資組合的方差取決于其所包含的所有證券的方差及這些證券的相關性。

正態隨機變量的概率密度函數表達式為:

隨機變量的取值范圍定義在:-∞ < x < +∞。當正態分布的參數均值μ = 0,并且標準差 σ = 1 時,我們稱其為標準正態分布。

下面我們給出正態分布的圖形化展現:

通過觀察可以發現,正態分布呈現出類似“鐘型”的曲線。通過改變正態分布的均值與標準差參數,我們可以改變鐘型曲線的寬度與高度。隨著標準差變大,鐘型曲線會變得更扁平,意味著樣本相對于均值的離散程度更大(圖中綠線)。

在金融領域中,我們并不直接對股價進行正態分布的建模,而是對股票的日收益率進行建模。這是由于:股價永遠是大于0的正數,而正態分布能夠取得實數軸上的所有值,從這個角度來說,股價日收益率比股價本身更為適合用正態分布建模。在已知正態分布的均值與方差的前提下,我們可以得出以下結論:

當觀測集服從正態分布時,

1、68%的觀測值落在均值 ± 1個標準差的范圍區間 (μ±σ)

2、95%的觀測值落在均值 ± 2個標準差的范圍區間 (μ±2σ)

3、99%的觀測值落在均值 ± 3個標準差的范圍區間 (μ±3σ)

這些結論對于后續理解置信區間是很重要的,后者與正態分布密切相關。當談到樣本分布的均值和方差時,我們往往會去觀察“以均值為中心,向兩側延展開”的這些置信區間。

運用中心極限定理,我們能夠對各種不同的隨機變量進行標準化處理,將他們轉變為正態隨機變量。在統計學中有一個常用的工具——標準正態概率表,它能夠根據給定的隨機變量為某一值時(X = x),檢索到標準正態累積密度函數對應的值 F(X ≤ x)。通過標準化轉換為“正態隨機變量”后,我們能夠方便地對照著概率表檢索到概率值。

具體操作上,我們對每一個樣本采取“減去樣本均值后,再除以樣本標準差”的方式來實現標準化的過程,將隨機變量 X 轉變為正態隨機變量 Z:

現在讓我們先來看一個隨機變量服從二項分布的例子 X ~ B(n, p)。二項式分布的均值 μ = np,方差 σ2 = np(1 - p):

接著我們將二項式隨機變量 X 按照之前介紹的標準化方法轉變為正態隨機變量 Z:

這個“標準化轉換”的方法非常重要。通過將隨機變量轉變為我們熟悉的分布 —— 正態分布,我們能夠輕松地回答那些之前圍繞原始變量的任何概率方面的問題。然而,前提是這依賴于足夠大的樣本量。

我們假定股票日收益率基于正態分布,不妨用 Y 來代表股價。我們將運用程序函數模擬股票日收益率,并將其可視化如下:

進一步地,此時我們引入另一個“股票 Z”,同樣模擬出 Z 股票的日收益率(同樣基于正態分布):

接下來,我們創建一個投資組合 W,構建方法是對股票 Y 和 Z 以加權平均的方式進行組合:

讓我們把這三只“股票”放在一起對比觀察一下:

注意,我們新構建的投資組合日收益率,也是正態分布的:

正態分布被廣泛地應用于金融領域,尤其在風險管理與投資組合理論中,有大量的文獻介紹了如何運用正態分布從風險分析到股價建模。

概率分布擬合

現在我們將嘗試對股票日收益率進行概率分布擬合。我們取得特斯拉的日收益率數據,對其應用正態分布擬合。首先要檢查的是,日收益率是否真的呈現概率分布的屬性。為此,我們將使用 Jarque-Bera 檢驗,檢驗結果P值如果大于閾值,則服從正態分布。

從運行結果來看,過低的P值“拒絕”了正態分布的假設。通過上圖我們可以發現,拒絕的原因是峰值太大(正態分布的峰值應為3)。

我們假設收益率是正態分布的,以便我們可以繼續進行分布擬合。接下來我們計算出序列的樣本均值與方差。

現在讓我們來看一下,如何對這些樣本實際值(股價收益率)進行理論上的正態曲線擬合:

如先前所說,正因為實際日收益曲線擁有“高峰值” 5.20 (高于正態分布要求的峰值3),因此并非是正態分布的。過高的峰值在圖中以曲線的高度來體現。而進行正態分布擬合后,我們得到的“理論收益曲線”擁有比實際收益曲線低得多的峰值,這是符合邏輯的。

定價模型和收益率模型之所以建模困難,正是由于無法確定它們背后遵循何種概率分布。在金融領域,許多理論和框架都要求數據與正態分布相關,這也是為何正態分布如此普遍的原因。舉例來說,Black-Scholes期權定價模型就假設了股價是基于對數正態分布的。然而在現實世界,尋找那些完美服從正態分布假設的真實數據,是非常困難的。在策略的實現上,你不應假設數據樣本服從那些它們本不具備的分布規律,除非有很充分的理由。

一般來說,當嘗試對真實數據進行概率分布擬合時,我們已經預先假設了其遵循某一種特殊的概率分布(或某幾種特殊概率分布中的一種)。接下來我們會采用一系列的檢測來決定哪一種分布假設是最合適的。另外,隨著新的樣本數據不斷產生并加入進來,需要及時地更新均值與標準差的參數假設。甚至當這些新加入的樣本足以影響原有的概率分布假設時(例如存在一個與原假設不同的概率分布假設,更符合新的樣本數據時),予以替換。

應各位朋友建議,關注微信公眾號“數據夕拾”,后臺回復“隨機變量”,獲取獨家中英原版PDF文檔。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,663評論 6 531
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,125評論 3 414
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 175,506評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,614評論 1 307
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,402評論 6 404
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 54,934評論 1 321
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,021評論 3 440
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,168評論 0 287
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,690評論 1 333
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,596評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,784評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,288評論 5 357
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,027評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,404評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,662評論 1 280
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,398評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,743評論 2 370

推薦閱讀更多精彩內容