020.jpg
如果想觀看相關(guān)視頻可以在西瓜視頻(賬號(hào)zidea)或者嗶哩嗶哩(賬號(hào)zidea2015)找到我發(fā)布視頻解說(shuō),注意頭像和簡(jiǎn)書使用頭像一致。
通過(guò)一個(gè)問(wèn)題引入置信區(qū)間
老虎機(jī) | ||
---|---|---|
1 | 1,0,0,1,1,0,0,1,0,1 | 0.5 |
2 | 1 | 1 |
3 | 1,1,0,1,1,1,0,1,1,1 | 0.8 |
- 不只是看平均贏率,還要看贏率的置信度(confidence)
置信區(qū)間
其實(shí)置信區(qū)間沒(méi)有那么復(fù)雜,這里簡(jiǎn)單用語(yǔ)言描述一下,就是對(duì) MAB(多搖臂老虎機(jī))我們都是通過(guò)嘗試來(lái)得到值去推測(cè)其概率分布,那么我們看到均值是否接近真實(shí)值是和我們做實(shí)驗(yàn)次數(shù)多少有關(guān)系的,也就是實(shí)驗(yàn)次數(shù)越多這個(gè)值就越準(zhǔn)確,這是我們想的,如何用數(shù)學(xué)嚴(yán)謹(jǐn)表達(dá)這件事,就引入置信區(qū)間的概念。
- 定義一個(gè)范圍,均值會(huì)以一定概率落在這個(gè)范圍,例如會(huì) 0.95 的概率,落在在 0.2 到 0.5 內(nèi)
- 實(shí)驗(yàn)次數(shù)少,置信區(qū)間大,也就是不可靠
- 實(shí)驗(yàn)次數(shù)增加,置信區(qū)間變窄,估計(jì)越來(lái)越準(zhǔn)確
樂(lè)觀策略
- 選擇置信區(qū)間上界最大搖臂老虎機(jī)
- 通過(guò)線性回歸估計(jì)出
通常會(huì)
置信區(qū)間的上界
- 假設(shè)已經(jīng)對(duì)老虎機(jī)
實(shí)驗(yàn)了
次
- 對(duì)其均值的估計(jì)
- 一定概率的置信區(qū)間
- 一定置信區(qū)間的概率
Heoffding's inequality
-
為獨(dú)立同分布的隨機(jī)變量,取值范圍為
- 真實(shí)均值
- 實(shí)驗(yàn)估計(jì)
- 置信區(qū)間 b,其中
是超參數(shù)
UCB(Upper confidence smapling) 算法
- 初始化
以及
- 每一步,計(jì)算搖臂的 UCB
- 總實(shí)驗(yàn)次數(shù) t 越多,置信區(qū)間的 bound 就越大
- 搖臂老虎機(jī) i 嘗試次數(shù)
越多,置信區(qū)間就越窄
- 讓每個(gè)搖臂老虎機(jī)總被試,但又考慮已經(jīng)發(fā)現(xiàn)的舉止
UCB 具體操作流程
- 初始化:對(duì)每一臂都嘗試一次
- 按照如下公式計(jì)算每個(gè)臂的分?jǐn)?shù),然后選擇分?jǐn)?shù)最大的臂作為選擇
- 觀察結(jié)果更新
和
-
這個(gè)臂到目前的收益均值
-
是上界,本質(zhì)上是均值的標(biāo)準(zhǔn)差
-
是實(shí)驗(yàn)次數(shù)
是搖臂
臂的次數(shù)。
- 這個(gè)公式反映一個(gè)特點(diǎn):均值越大,標(biāo)準(zhǔn)差越小,被選中的概率會(huì)越來(lái)越大,同時(shí)哪些被選次數(shù)較少的臂也會(huì)得到試驗(yàn)機(jī)會(huì)。