博弈論-囚徒困境與重復囚徒困境的啟示
“囚徒困境”
囚徒困境(prisoner’s dilemma):討論的是兩個被捕的囚徒之間的一種博弈,它闡明了為什么“在合作對雙方都有利時,保持合作也是困難的”。
囚徒困境的故事講的是,兩個嫌疑犯作案后被警察抓住,分別關在不同的屋子里接受審訊。警察知道兩人有罪,但缺乏足夠的證據。警察告訴每個人:如果兩人都抵賴,各判刑一年;如果兩人都坦白,各判八年;如果兩人中一個坦白而另一個抵賴,坦白的放出去,抵賴的判十年。于是,每個囚徒都面臨兩種選擇:坦白或抵賴。
? ? ? ? ? ? ?B-坦白? ? ? B-抵賴
A-坦白? ? 8? , 8 ? ? ? ? 0, 10
A-抵賴? ? 10, 0 ? ? ? ? 1, 1
然而,不管同伙選擇什么,每個囚徒的最優選擇是坦白:如果同伙抵賴、自己坦白的話放出去,不坦白的話判一年,坦白比不坦白好;如果同伙坦白、自己坦白的話判八年,不坦白的話判十年,坦白還是比不坦白好。最終的結果,兩個嫌疑犯都選擇坦白,各判刑八年。
在囚徒困境中,如果兩人選擇合作,即兩人都抵賴,各判一年,顯然是最好的結果。但由于大家都優先考慮自己的最優選擇,導致了最終整體選擇并不是最好的。
囚徒困境所反映出的深刻問題是,個人利益的最大化并不能保證集體利益的最大化,自以為聰明的人可能會作繭自縛。
“重復囚徒困境”與“艾克斯羅德博弈論實驗”
囚徒困境是一個一次性的博弈實驗,如果增加博弈的次數,讓每個參與者都有機會去“懲罰”對方前一個回合的行為,此時每個參與者的決策可能會發生變化。其中最有名的實驗莫過于艾克斯羅德的博弈實驗。
艾克斯羅德組織了一場計算機競賽:任何想參加這個計算機競賽的人都扮演“囚徒困境”案例中一個囚犯的角色。他們把自己的策略編入計算機程序,然后隨機的與其他人進行囚徒困境博弈,每次博弈完畢后會獲得一定的分數,并且每個人在進行博弈前都能夠清楚的知道對方的歷史博弈情況,每個參賽選手都會進行200次博弈對決。
博弈分數的設計如下:
? ? ? ? ? ? ? ? 對方-好意? ? 對方-惡意
自己-好意? ?2,2? ? ? ? ? ?0,3
自己-惡意? ?3,0? ? ? ? ? ?1,1
初看會發現,如果這是一個一次性博弈,不管對方選擇好意還是惡意,自己選擇惡意都是最優的,都將贏得更高的分數。但如果每個人都這么想,每次博弈大家都只增加1分,每個人分數的增長都會非常的緩慢。實驗的最終結果是怎么樣的呢?采取什么策略會贏得最高的分數呢?
“艾克斯羅德博弈論實驗”的結果
艾克斯羅德博弈論實驗,計算機競賽提交上來的程序包含了各種復雜的策略。讓人感到吃驚的是,競賽的桂冠屬于其中最簡單的策略:一報還一報(TIT FOR TAT)。這是多倫多大學心理學家阿納托拉帕波特提交上來的策略。
一報還一報的策略是這樣的:
1)它總是以合作開局
2)但從此以后就采取以其人之道還治其人之身的策略
這個策略永遠不先背叛對方,從這個意義上來說它是“善意的”。它會在下一輪中對對手的前一次合作給予回報(哪怕以前這個對手曾經背叛過它),從這個意義上來說它是“寬容的”。但它會采取背叛的行動來懲罰對手前一次的背叛,從這個意義上來說它又是“強硬的”。而且,它的策略極為簡單,對手程序一望便知其用意何在,從這個意義來說它又是“簡單的”。
為了證明一報還一報策略的勝利不只是一種僥幸,艾克斯羅德又舉行了多場競賽,并邀請了更多的人,但這個策略一次又一次的奪魁,競賽的結論無可爭議。
重復囚徒困境結論
人的一生中會有非常多次的選擇,有時候吃虧,有時候占了便宜。善意的決策可能吃虧,又或者惡意的背叛可能占便宜,但所有的過往,都會成為別人今后和你合作時進行決策的依據。
好人,更確切地說,具備以下特點的人,將會成為最終的贏家:
1)善意的:ta不會首先背叛別人
2)寬容的:別人曾經背叛過ta,但前一次合作是善意的,ta會原諒別人
3)強硬的:前一次合作背叛了ta,ta下一次合作會進行懲罰
4)簡單純粹的:簡單純粹的原則讓彼此都更加輕松
來源:?<http://www.habadog.com/2014/09/29/game-theory-the-prisoners-dilemma-and-repeated-prisoners-dilemma/>