前段時(shí)間,知乎網(wǎng)舉辦了世界杯比分預(yù)測(cè)大賽。
在兩輪競(jìng)猜之中,我一個(gè)完全不懂球的人都穩(wěn)定在前200名,在好友圈內(nèi)一直保持第一,雖然最后沒(méi)有拿到獎(jiǎng),但我構(gòu)建的數(shù)學(xué)模型總還是有一些參考價(jià)值的。
首先,普及一個(gè)定理:
「多樣性預(yù)測(cè)定理」(Diversity Prediction Theorem)
看論文點(diǎn)這里(復(fù)制到瀏覽器中):
http://www.cscs.umich.edu/~spage/ONLINECOURSE/prediction.pdf
寫成數(shù)學(xué)公式,就是這樣:(這是一個(gè)恒等式)
多樣性預(yù)測(cè)定理
其中,Real,就是實(shí)際值,x的平均值作為預(yù)測(cè)值,我們可以看到,其意義就是:
誤差之平方 = 每一項(xiàng)誤差的平方平均值 - 方差
(按照其原話,便是:Collective Error = Average Individual Error ? Prediction Diversity)
大家可以用下面的 Mathematica 代碼,或者 Wolfram Language 檢驗(yàn):
D\[Sigma]2[list_, R_] :=
With[{Alist = Total[list]/Length[list], n = Length[list]}, 1/n \!\(
\*UnderoverscriptBox[\(\[Sum]\), \(i = 1\), \(n\)]
\*SuperscriptBox[\((list[[i]] - R)\), \(2\)]\) - 1/n \!\(
\*UnderoverscriptBox[\(\[Sum]\), \(i = 1\), \(n\)]
\*SuperscriptBox[\((list[[i]] - Alist)\), \(2\)]\)]
上面的式子雖然是一個(gè)可以嚴(yán)格證明的恒等式,統(tǒng)計(jì)學(xué)家亦做過(guò)一個(gè)實(shí)驗(yàn),他們讓一群人猜測(cè)一頭牛的質(zhì)量,每個(gè)人都可以自由猜測(cè),猜測(cè)出來(lái)的結(jié)果,很多人預(yù)測(cè)結(jié)果非常離譜(這以為著),然而其預(yù)測(cè)值的平均值卻非常接近牛的質(zhì)量(誤差小于0.5%)。
較為不嚴(yán)格的說(shuō),減小預(yù)測(cè)最終誤差的方法在于增大方差。
知乎公開了所有的投票數(shù)據(jù),我們可以利用它,一個(gè)簡(jiǎn)單的想法便是:取所有用戶投票的平均值。
這樣就獲得了最初的算法:
這樣的算法,成功預(yù)測(cè)了第一輪前半部分 70% 的比賽結(jié)果。對(duì),只要獲得大量知友的投票數(shù)據(jù)即可。
當(dāng)然,如果想讓結(jié)果看起來(lái)更加舒服,可以寫成這樣:
比如這是剛開始巴西對(duì)陣克羅地亞的比賽:
In[5]:= data001 = {176, 701, 1240, 917, 160, 82, 25, 18, 14};
In[6]:= GoAuto[data001]
Out[6]= -2
模型表現(xiàn)不錯(cuò)。
當(dāng)然,我們要注意已有的投票數(shù)對(duì)于知友投票的影響。
多樣性預(yù)測(cè)定理的另一個(gè)表述便是:不同的人,對(duì)某一事物進(jìn)行預(yù)測(cè),他們使用不同的模型,而最終加權(quán)平均的結(jié)果,會(huì)更加接近真實(shí)值。
但是一些知友使用的無(wú)用的模型,比如隨機(jī)投票、從眾、求異,這樣沒(méi)有營(yíng)養(yǎng)的模型對(duì)預(yù)測(cè)結(jié)果是沒(méi)有幫助的,我們要將之剔除。所以我們要獲得不同時(shí)段的投票數(shù)據(jù)。
比如這一場(chǎng)巴西 VS 智利的比賽,兩次獲得的投票數(shù)據(jù)為:
data6271 = {36, 398, 2033, 1813, 125, 110, 25, 10, 34};
data627x = {129, 1172, 5572, 4931, 367, 364, 80, 40, 164};
data627y = {199, 1658, 7604, 6775, 622, 562, 133, 79, 252};
我們將新的數(shù)據(jù),除以舊的數(shù)據(jù),得到這樣有趣的圖像:
大家似乎并不愿意從眾,反而是愿意求異,我們將這樣的「無(wú)用」的模型剔除。獲得了這樣的結(jié)果:
代碼部分
「多樣性預(yù)測(cè)定理」的思想非常簡(jiǎn)單,但結(jié)果還是相對(duì)比較好的(至少我這個(gè)不懂球的能兩次都保持在前200),下面是一些代碼(Mathematica/Wolfram Language)
基本預(yù)測(cè):
GoBasic[list_] := {-4, -3, -2, -1, 0, 1, 2, 3, 4}.list/Total[list]
Aver[list_] := Total[list]/Length[list]
Si2[list_] := With[{aver = Aver[list], n = Length[list]}, \!\(
\*UnderoverscriptBox[\(\[Sum]\), \(i = 1\), \(n\)]
\*SuperscriptBox[\((list[\([\)\(i\)\(]\)] - aver)\), \(2\)]\)/n]
GoAuto[list_] := Round[GoBasic[list]]
剔除無(wú)用模型:
Show[ListLinePlot[N[data627x/data6271], PlotRange -> {{0, 9}, {0, 5}},
Mesh -> All],
Plot[a (x - b)^2 + c /. root1, {x, 0, 9}, PlotStyle -> Red]]
正態(tài)分布擬合:
Gauss[list_, p_] :=
With[{fit =
FindFit[list/Total[list],
1/(Sqrt[2 \[Pi]] \[Sigma]) E^(-(p - \[Mu])^2/(
2 \[Sigma]^2)), {\[Sigma], \[Mu]}, p]},
Show[ListPlot[list/Total[list], PlotStyle -> Red],
Plot[E^(-((p - \[Mu])^2/(2 \[Sigma]^2)))/(
Sqrt[2 \[Pi]] \[Sigma]) /. fit, {p, 0, 10}, Filling -> Bottom],
PlotRange -> All]]
多重正態(tài)分布擬合:
Fitcomplex[list_, prelist_] :=
FindFit[list/
Total[list], {u*1/(Sqrt[2 \[Pi]] \[Sigma]) E^(-(p - \[Mu])^2/(
2 \[Sigma]^2)) + (1 - u)*1/(Sqrt[2 \[Pi]] \[Sigma]2)
E^(-(p - \[Mu]2)^2/(2 \[Sigma]2^2)), 0 < u < 1, 0 < \[Mu] < 9,
0 < \[Mu]2 < 9}, {{\[Mu], prelist[[1]]}, {\[Mu]2,
prelist[[2]]}, \[Sigma], \[Sigma]2, u}, p]
Plotcomplex[list_, getlist_] :=
Show[Plot[(u E^(-((p - \[Mu])^2/(2 \[Sigma]^2))))/(
Sqrt[2 \[Pi]] \[Sigma]) + ((1 - u) E^(-((p - \[Mu]2)^2/(
2 \[Sigma]2^2))))/(Sqrt[2 \[Pi]] \[Sigma]2) /. getlist, {p, 0,
10}, Filling -> Bottom],
ListPlot[list/Total[list], PlotStyle -> Red],
Plot[((1 - u) E^(-((p - \[Mu]2)^2/(2 \[Sigma]2^2))))/(
Sqrt[2 \[Pi]] \[Sigma]2) /. getlist, {p, 0, 9}, Filling -> Bottom,
PlotRange -> All],
Plot[(u E^(-((p - \[Mu])^2/(2 \[Sigma]^2))))/(
Sqrt[2 \[Pi]] \[Sigma]) /. getlist, {p, 0, 9}, Filling -> Bottom,
PlotRange -> All]]
擬合的結(jié)果就是這樣的,但結(jié)果與一開始的模型差別不大,就沒(méi)有怎么用: