內容提要:本節給出了博弈論經典案例《囚徒困境》的數學函數和MATLAB圖形,指出博弈論不存在邊際,使囚徒困境的理解更加直觀和簡單。使用諾貝爾獎獲得者沙普利的配對理論,指出哪種配對是穩定的配對。配對是我們如何從生活中得到既是我們所選擇的,同時也是選擇我們的事物。而博弈論是選擇我想得到的但卻是對手不想得到的。博弈論是配對理論的一種反應用。本節不僅分析了博弈雙方在自利情況下的穩定配對,還分析了存在自利,克己和利他多種情況下的穩定配對。
創新要點:
1.給出了囚徒困境的數學函數,指出博弈論不存在邊際。
2.使用MATLAB繪制了囚徒困境的三維模型,使其更直觀,更容易理解。
3.使用配對理論分析了囚徒困境的穩定配對,并且分析了博弈雙方分別是利己,克己和利他情況下的穩定配對。
博弈論考慮游戲中的個體的預測行為和實際行為,并研究它們的優化策略。表面上不同的相互作用可能表現出相似的激勵結構(incentive structure),所以他們是同一個游戲的特例。其中一個有名有趣的應用例子是囚徒困境。
具有競爭或對抗性質的行為稱為博弈行為。在這類行為中,參加斗爭或競爭的各方各自具有不同的目標或利益MV。為了達到各自的目標和利益,各方必須考慮對手的各種可能的行動方案α,并力圖選取對自己最為有利或最為合理的方案α。比如日常生活中的下棋,打牌等。博弈論就是研究博弈行為中斗爭各方是否存在著最合理的行為方案,以及如何找到這個合理的行為方案的數學理論和方法。
囚徒困境與配對理論
1950年,由就職于蘭德公司的梅里爾·弗勒德(Merrill Flood)和梅爾文·德雷希爾(Melvin Dresher)擬定出相關困境的理論,后來由顧問艾伯特·塔克(Flbert
Tucker)以囚徒方式闡述,并命名為“囚徒困境”。經典的囚徒困境如下:
警方逮捕甲、乙兩名嫌疑犯,但沒有足夠證據指控二人有罪。于是警方分開囚禁嫌疑犯,分別和二人見面,并向雙方提供以下相同的選擇:
若一人認罪并作證檢控對方(相關術語稱“背叛”對方),而對方保持沉默,此人將即時獲釋,沉默者將判監10年。
若二人都保持沉默(相關術語稱互相“合作”),則二人同樣判監半年。
若二人都互相檢舉(互相“背叛”),則二人同樣判監2年。
用表格概述如下(如表6-1所示):
表6-1囚徒困境案例
若對方沉默、我背叛會讓我獲釋,所以會選擇背叛。
若對方背叛指控我,我也要指控對方才能得到較低的刑期,所以也是會選擇背叛。
二人面對的情況一樣,所以二人的理性思考都會得出相同的結論——選擇背叛。背叛是兩種策略之中的支配性策略。因此,這場博弈中唯一可能達到的納什均衡,就是雙方參與者都背叛對方,結果二人同樣服刑2年。
這場博弈的納什均衡,顯然不是顧及團體利益的帕累托最優解決方案。以全體利益而言,如果兩個參與者都合作保持沉默,兩人都只會被判刑半年,總體利益更高,結果也比兩人背叛對方、判刑2年的情況較佳。但根據以上假設,二人均為理性的個人,且只追求自己個人利益。均衡狀況會是兩個囚徒都選擇背叛,結果二人判監均比合作為高,總體利益較合作為低。這就是“困境”所在。例子有效地證明了:非零和博弈中,帕累托最優和納什均衡是互相沖突的。
在博弈論中,是不存在邊際的,即可選擇的點是不連續的,不可導。我們來構建函數,使博弈論的函數可導。假設甲合作的可能性為x,認罪的可能性為1-x,其中0≤x≤1;設乙合作的可能性為y,認罪的可能性為1-y,其中0≤y≤1。假設x,y大于等于0.5時表示合作,小于0.5時表示認罪,并且二人被判刑的總年限為z。則得到如下分段函數
在MATLAB中輸入如下函數,可以得到對應的囚徒困境的三維圖形(如圖6-21所示)。
[x,y]=meshgrid(0:0.1:1,0:0.1:1);
z=0.5*x.*y.*(x>=0.5&y>=0.5)+0.5*x.*y.*(x>=0.5&y>=0.5)+0*(1-x).*y.*(x<0.5&y>=0.5)+10*(1-x).*y.*(x<0.5&y>=0.5)+10*x.*(1-y).*(x>=0.5&y<0.5)+0*x.*(1-y).*(x>=0.5&y<0.5)+2*(1-x).*(1-y).*(x<0.5&y<0.5)+2*(1-x).*(1-y).*(x<0.5&y<0.5);
surf(x,y,z),shadingflat,hold on
title('囚徒困境')
xlabel('x軸囚徒甲合作')
ylabel('y軸囚徒乙合作')
zlabel('z軸二人總支付')
圖6-21有邊際的囚徒困境
當x和y分別合作和認罪時,即當x和y分別等于1,0時,得到三維坐標系內的4個極值點(1,1,1),(1,0,10),(0,1,10)和(0,0,4)。
表6-2囚徒困境的4種情況
當x和y分別取0,1時,得到了囚徒困境的4個極值點,構建的函數符合囚徒困境。當甲、乙兩人均合作(1,1)時,總的支付為最小的1。但是由于二者均處于自身利益最大化的考慮,二者均選擇了認罪(0,0),二者均被判刑2年,二者并沒有達到系統的最優值1年,即每人0.5年。
其中甲x對應自己的被判年數的函數為
其中乙y對應自己的被判年數的函數為
繼續在MATLAB中輸入如何程序,得到甲的利益函數。甲利益函數對應的4個極值分別為(1,1,0.5),(0,1,0),(1,0,10)和(1,1,2)(如圖6-22所示)。
[x,y]=meshgrid(0:0.1:1,0:0.1:1);
z=0.5*x.*y.*(x>=1&y>=1)+0*(1-x).*y.*(x<=0&y>=1)+10*x.*(1-y).*(x>=1&y<=0)+2*(1-x).*(1-y).*(x<=0&y<=0);
surf(x,y,z),shadingflat,hold on
圖6-22有邊際和無邊際的囚徒困境
如果限定x和y只能等于0或1,則可以得到無邊際的囚徒困境,輸入如下程序得到無邊際的囚徒困境圖形(如圖6-23所示)。
[x,y]=meshgrid(0:0.1:1,0:0.1:1);
z=0.5*x.*y.*(x>=1&y>=1)+0.5*x.*y.*(x>=1&y>=1)+0*(1-x).*y.*(x<=0&y>=1)+10*(1-x).*y.*(x<=0&y>=1)+10*x.*(1-y).*(x>=1&y<=0)+0*x.*(1-y).*(x>=1&y<=0)+2*(1-x).*(1-y).*(x<=0&y<=0)+2*(1-x).*(1-y).*(x<=0&y<=0);
surf(x,y,z),shadingflat,hold on
title('無邊際的囚徒困境')
xlabel('x軸囚徒甲合作')
ylabel('y軸囚徒乙合作')
zlabel('z軸二人總支付')
圖6-23無邊際的囚徒困境
在囚徒困境中,一個人的選擇不僅影響自己的利益,也會影響對方的利益,而二者處于自己利益最大化的考慮,最終的結果卻不是自己的利益最大化。在后邊共享經濟學中我們會介紹配對理論,此處通過配對理論來解釋囚徒困境。
諾貝爾經濟學獎獲得者埃爾文?羅斯在《共享經濟:市場設計及其應用》中寫到:“配對在經濟學術語中可以解釋為,我們如何從生活中得到既是我們所選擇的,同時也是選擇我們的事物。”而博弈就是選擇我們想要選擇的,而不讓對方選擇他們想要選擇的。在囚徒困境中,甲和以均有4種選擇,最好的是自己選擇認罪,對方選擇合作,自己被判0年,對方被判10年;第2種的是自己和對方均合作,每人被判0.5年;第3種是雙方都認罪,均被判2年;最差的一種是自己合作,對方認罪,自己被判10年,對方釋放(如表6-3所示)。
表6-3囚徒困境的四種配對
在博弈論中推理中,如果對方選擇認罪時,自己選擇合作會被判10年,而選擇認罪會被判2年,所以在對方認罪的前提下,自己選擇認罪是最好的策略。當對方選擇合作時,如果自己選擇合作,會被判0.5年,而選擇認罪會被釋放,所以在對方選擇合作時,自己選擇認罪是最好的策略。對方的推理相同,最后兩人都選擇了認罪,均被判兩年。他們的選擇沒有達到系統的最優值,因為如果二者都選擇合作,他們均被判0.5年,比2年少。
在4個配對當中,第1種配對對自己是最有利的,但是對對方是最不利的。當自己選擇認罪時,給對方的選擇是合作或認罪,而認罪要比合作獲得的利益多。這個配對是不穩定的,因為對方會因為自己選擇認罪而選擇認罪,所以第1種配對達不到自己認罪,對方合作的配對組合。在第1種配對中,不僅為自己選擇了最大的利益,也為對方選擇了最大的損失。
在第2種配對中,甲不僅為自己選擇了合適的利益,也為對方選擇了合適的利益。但是這種配對也是不穩定的,對于甲來說,如果對方選擇了合作,而自己認罪,自己將獲得更大的利益,從而達到第1種配對的狀態。但是自己獲得的利益是以對方更大的損失換來的,所以總的利益會減少。自己增加的利益為少被判刑2年,而對方的損失是多被判刑8年,自己的自利使兩人的配對相比之前多被判刑6年。
第3種配對中,雙方都選擇了認罪,任何單方面的改變,都不會使自己的境遇變得更好,是一個穩定的配對。如果一方選擇合作,那么相應的給對方選擇了更好的配對,對方將被釋放,而自己的損失增加。在第3種配對中,單方面的改變會變為第1種或第4種配對,都是不穩定的配對。
第4種配對中,自己選擇了最大的損失,對方選擇了最大的利益,在理智的情況之下,只有利他的精神會導致此種配對的發生。
在囚徒困境的假設中,博弈的雙方都是理性利己的,追求自身利益的最大化,而第2種配對則是二人博弈的結果。除了自利,還有兩種美德影響著人類的選擇。亞當?斯密在《道德情操論》中論述了三種美德,分別為審慎(利己),合宜(克己)和慈善(利他),而三種美德分別為心理的自愛,同情和理性三種機能推薦給我們。如果博弈雙方存在著一方的利他美德,那么第1種或者第4種配對就會發生,利他的一方以對方利益最大化為出發點,自己選擇了合作。而如果雙方都是利他的話,第2種配對就會發生,均以對方利益最大化為出發點,而達到二人博弈的整體最優點。在存在利他美德的博弈中,第1種,第2種和第4種配對都是穩定的配對。如果博弈中存在克己的情感,即不傷害他人。當對方選擇合作時,如果自己選擇認罪,將會使對方遭受更大的損失,自己會選擇合作;如果對方選擇認罪,自己選擇合作會使自己遭受更大的損失,所以自己也會選擇認罪。如果雙方都是克己的,那么第2種配對就是穩定的配對。如果一方是克己的,一方是利己的,那么第3種配對就是穩定的配對(如表6-4所示)。
表6-4自利,利己和利他情況下的穩定配對
在一個利己的環境中,很難達到個人利益和整體的利益最大化,而在克己或利他的環境中,就可以達到整體的利益和個人的最大化。在哲學部分我們論述過亞當?斯密的哲學。他在《國富論》中論述了自利可以使自己的利益增加,進而使整體的利益增加,而在《道德情操論》論述了審慎(利己),合宜(克己)和慈善(利他)這三種美德中,推崇克己這種美德。亞當?斯密的完整論述是在遵守克己原則下的利己行為,即不傷害他人的行為,既可以達到個人利益最大化,也可以達到整體利益的最大化。囚徒困境中,博弈二人都選擇了坦白,得到了納什均衡,但不是帕累托最優。二人都選擇合作,可以達到帕累托最優。在博弈二人均是利己的假設前提下,只能得到納什均衡這個次優解,而不能達到帕累托最優解。而在二人均是克己的假設下,可以得到帕累托最優這個穩定的解。這也證明了亞當?斯密在《道德情操論》中推崇克己,而不是自利對整個社會發展是更有利的。
《可以量化的經濟學》全書結構
《可以量化的經濟學》封面