? 令代表隨機變量
的觀測值,香農信息論告訴我們:該觀測值的信息量為
。然而,在統計學中概率分布往往是未知的,特別地,當分布含未知參數
時,不同的參數值
就對應著
有不同的條件概率
,從而意味著不同的信息量。我們很自然地想到,可以給參數值設定一個具體信息量來反映這種差別。
? 但是,上述方法不適用于處理參數值:首先,它不是可觀測量,即便我們用貝葉斯觀點賦予它一個分布,如何避免主觀偏倚仍是問題。其次,使用正規模型時,可計算的點估計量和參數值服從的分布往往是大相徑庭的。如果使用參數值的分布來定義信息量,那將與實際可行的統計推斷流程背道而馳。區別參數值和對其的點估計,是搞清問題的關鍵。
? 在推定值前,我們用先驗分布
表示其不確定狀況,由貝葉斯公式可得到
。從而得出“推定前”信息量
。
? 推定過程實際上就是用基于觀測值的點估計去代換上文中的
,從而得出條件概率(非貝葉斯派稱其為似然)
。當似然較大時它給出更小的信息量。然而,新的概率分布需要更換新的編碼來適應,所以此時除了記錄觀測值外,還需要額外信息來記錄點估計
,它的值指明了更換到哪一個條件分布。總之:
? 在推定值后,我們記錄兩部分信息:前者是點估計
,其信息量為
。式中概率同樣可用貝葉斯公式求得:
。后者是觀測值的新編碼,其長度為
。兩者的總和即是“推定后”信息量
。
? 推定前后信息量之差:
可定義為參數值的信息量。我們可以利用其數值作為選取點估計方法和評價先驗
的依據。
? 通常的統計決策論是用風險最小化(有時表述為效用最大化)來確定估計方法的。在
取值數均有限的特殊情形,
可表述為將
值域劃分為多個獨立子集的問題,每一獨立子集對應一個不同的估計值,適當的劃分可由下列的優化問題解出:
?式中是適當的損失函數,損失函數本身也要滿足一定的要求,它們是上述優化問題未列出的約束條件。一般情況下,該問題是NP困難的,從而求出風險最小的
消耗的計算時間,可能會隨取值數呈指數增長(根據強指數時間假設SETH)。
? 然而,從另一個角度來考慮:動用如此龐大的計算資源,是與參數值本身的信息量不相配的。我們提議這樣的原則:估計量的計算復雜度應該與該估計量求得的信息量相適配(例如:相差不超過多項式函數)。