主要內容:
博弈論的基本理論和運用博弈論進(jìn)行決策的一般方法。
教學(xué)目的:通過(guò)本章的教學(xué),要求學(xué)生了解博弈論的一般理論和運用博弈論進(jìn)行決策的一般方法。
目前,博弈論發(fā)展的非常深入,這里只是介紹一些初步知識。在二十世紀四、五十年代,由馮·諾依曼(Von Neumann)、摩根斯坦(Morgenstern)把對策論、運籌學(xué)引入經(jīng)濟學(xué),形成了最早的博弈論。幾十年來(lái),博弈論在經(jīng)濟學(xué)中發(fā)揮著(zhù)越來(lái)越大的重要作用,1994年的諾貝爾經(jīng)濟學(xué)獎就授予三位博弈論學(xué)家:納什(Nash)、澤爾騰(Selten)和海薩尼(Harsanyi)。 博弈論字面的意思是游戲策略,及用類(lèi)似游戲中解決問(wèn)題的方法,揭示解決社會(huì )、經(jīng)濟及其他領(lǐng)域問(wèn)題的策略、對策,因此有的還把博弈論譯成對策論。準確的說(shuō)博弈論是在給定的條件下尋求最優(yōu)策略,這里給定的條件包含其他人的策略以及本人的決策對其他決策主體的影響。策略性活動(dòng)在社會(huì )、經(jīng)濟、
政治生活中大量存在,也可以說(shuō),整個(gè)社會(huì )、經(jīng)濟、政治生活都是博弈行為。因此,博弈論作為一種方法,廣泛的應用在經(jīng)濟、政治、
軍事、外交中,只是博弈論在經(jīng)濟學(xué)中應用的最廣泛、最成功。如前面介紹過(guò)的古諾均衡,就屬于經(jīng)濟學(xué)中的博弈過(guò)程。
第一節 基本概念
一、博弈論 1.定義:博弈論是描述、分析多人決策行為的一種決策理論,是多個(gè)經(jīng)濟主體在相互影響下的多元決策,決策的均衡結果取決于雙方或多方的決策。如下棋,最后的結果就是由下棋雙方你來(lái)我往輪流做出決策,決策又相互影響、相互作用而得出的結果。 2.博弈論與優(yōu)化理論的異同點(diǎn)(1)相同點(diǎn):博弈論與優(yōu)化理論都是在給定的條件下,尋求最優(yōu)決策的過(guò)程。 (2)不同點(diǎn): A、優(yōu)化理論可以看成是單人決策,而博弈理論可以看成是多人決策。 在優(yōu)化理論的決策過(guò)程中,影響結果的所有變量都控制在決策者自己手里;而在博弈論的決策過(guò)程中,影響結果的變量是由多個(gè)決策者操縱的。如企業(yè)在追求成本最小化、產(chǎn)量最大化、利潤最大化的過(guò)程中總是假定外部條件給定,這實(shí)際上表明是一個(gè)優(yōu)化問(wèn)題,因為除了給定的外部條件外,剩下的因素都有決策者來(lái)控制,從而決策者自己就能控制決策的結果;如果外部條件不是給定的,而是有其他主體參與的過(guò)程,這時(shí)的決策過(guò)程就變成了一個(gè)博弈過(guò)程了,因為決策的最終結果不但取決于決策者本身,而且也取決于其他決策者的決策。 B、優(yōu)化過(guò)程是一個(gè)確定的過(guò)程,而博弈過(guò)程是確定性和不確定性的統一。 優(yōu)化過(guò)程是一個(gè)確定的過(guò)程,因為做出決策后,確定的結果就出來(lái)了。說(shuō)博弈過(guò)程有確定性,是因為決策各方的決策做出后,每一方的收益就確定了;說(shuō)博弈過(guò)程有不確定性,在于一方做出決策后,影響結果的變量還有眾多的其他決策者,在不知道其他主體行為的情況下,結果就不確定。 例如:在一次具體的戰斗中,一方是否發(fā)起進(jìn)攻,是一個(gè)決策。如果發(fā)起進(jìn)攻,對方肯定有所反應,客觀(guān)上講,必然會(huì )有一個(gè)確定的結果存在,這是確定性的表現。但是最后的結果如何,取決于對方如何應對,所以在發(fā)起進(jìn)攻時(shí),并不能知道結局是怎樣的,這就是不確定性的表現。如果一方發(fā)起進(jìn)攻后,另一方馬上投降,則戰斗結束;如果對方進(jìn)行反攻,從理論上來(lái)講,結果取決于雙方實(shí)力以及雙方收益的大小。由此可以看出博弈的廣泛存在,在現實(shí)生活中做出任何決策時(shí),實(shí)際上都受到其他主體決策的影響并對我們做決策產(chǎn)生一定影響,決策的結果除了由我們自己決定外還要受到其他決策主體的影響,這實(shí)際上就是一個(gè)博弈過(guò)程。 二、參與者(PLAYER) 參與博弈的利益主體叫做參與者。英文原意為玩主,也有譯成局中人的。在二人博弈中,有兩個(gè)參與者;在三人博弈中,有三個(gè)參與者;在多人博弈中,有多個(gè)參與者。 三、策略和策略空間 1.策略在給定條件博弈中,參與者完整的一套行動(dòng)
計劃叫做策略。例如我國古代著(zhù)名的謀略故事“田忌賽馬”中,國王的賽馬計劃是:先出上等馬,再出中等馬,最后出下等馬;田忌的賽馬計劃是:先出下等馬,再出上等馬,最后出中等馬。這里的賽馬計劃就是一套完整的行動(dòng)計劃,也就是一個(gè)策略。 2.策略空間參與者可以選擇的策略的全體就組成了策略空間。例如在“田忌賽馬”中,共有六種行動(dòng)方案可供選擇:上中下(先出上等馬,再出中等馬,最后出下等馬)、上下中、中上下、中下上、下上中、下中上。決策時(shí)田忌可以選擇其中任何一個(gè)策略,在故事中,因為國王固定選擇了上中下,所以田忌選擇了下上中,從而贏(yíng)得了比賽。任何一人策略的改變都將使結果也隨之改變,比如國王選擇了中下上,而田忌選擇了下上中,則國王將贏(yíng)得比賽。 四、報酬函數與報酬矩陣 1.報酬函數 每一個(gè)參與博弈的參與者,他的收益依附于各個(gè)參與者所出的策略,這種收益與策略的依附關(guān)系就構成了報酬函數。也就是說(shuō),第i個(gè)參與者的收益取決于所有參與者的策略,而不僅僅是自己的策略,表示成數學(xué)式子就是:Ri=Ri(S1,S2,…Sn)。其中Ri表示第i個(gè)參與者的收益,Si (i=1,…n) 表示第i個(gè)參與者所出的策略。 2.報酬矩陣參與博弈的多個(gè)參與者的報酬可以用一個(gè)矩陣或框圖表示,這樣的矩陣或框圖就叫做報酬矩陣。例如有甲乙兩個(gè)供貨商組成一個(gè)價(jià)格卡特爾,雙方都有選擇遵守約定價(jià)格或者違反約定價(jià)格的權利。報酬矩陣如下圖所示: 乙 守約 違約 甲 守約 8,8
6,10 違約 10,6 7,7 圖8-1 矩陣中每組數字中的前一個(gè)數字表示甲的收益,后一個(gè)數字表示乙的收益。當甲守約時(shí),乙如果守約,收益為8,乙如果違約,收益為10;當甲違約時(shí),乙如果守約,收益為6,乙如果違約,收益為7。所以,當甲守約時(shí),乙會(huì )選擇違約(10>8);當甲違約時(shí),乙也會(huì )選擇違約(7>6)。反之不管乙如何選擇,甲都會(huì )選擇違約,最終的結果是雙方都選擇違約。報酬矩陣改變,就會(huì )影響到雙方的決策。例如雙方的報酬矩陣變成下圖所示: 乙 守約 違約 甲 守約 12,12
2,10 違約 10,2 -4,-4 圖8-2 此時(shí)雙方可能都選擇守約,因為當甲守約時(shí),乙會(huì )選擇守約(12>10);當甲違約時(shí),乙也會(huì )選擇守約(2>-4)。反之不管乙如何選擇,甲都會(huì )選擇守約,最終的結果是雙方都選擇守約。 博弈過(guò)程參與者的決策行為要受到博弈規則的影響,即博弈規則的變化會(huì )改變報酬矩陣中的報酬值。比如在圖 8-1中,由于卡特爾中的每一個(gè)供貨商都追求自身利益的最大化,并且沒(méi)有措施來(lái)保證遵守價(jià)格約定,表面上可能都信誓旦旦的承諾守約,但是實(shí)際中雙方會(huì )違約。如果卡特爾追求整體利益的最大化,并且由于
歷史、政治、制度、懲罰等措施來(lái)保證遵守價(jià)格約定,雙方就可能和平共處,遵守價(jià)格約定。在歷次中東戰爭中,由于民族宗教原因,OPEC石油的產(chǎn)量和價(jià)格都得到了嚴格的執行。 五、均衡及博弈的解當博弈的所有參與者都不想改換策略時(shí)所達到的
穩定狀態(tài)叫做均衡,均衡的結果叫做博弈的解。比如圖8-1中甲乙兩個(gè)供貨商組成的卡特爾。不管甲如何選擇,乙必然選擇違約,同樣不論乙如何選擇,甲必然選擇違約。最終雙方都選擇了違約,并且只要給定的條件不變,雙方就都不會(huì )改變策略,結果非常穩定,達成均衡。在這個(gè)均衡中,不管甲如何選擇,乙都不會(huì )改變策略,同樣無(wú)論乙如何選擇,甲也不會(huì )改變策略,這種均衡就叫做占優(yōu)均衡。這種無(wú)論對方如何決策,自己總是會(huì )選擇的策略叫做占優(yōu)策略,由雙方的占優(yōu)策略所達成的均衡叫做占優(yōu)均衡。再比如,在學(xué)校中,學(xué)生平時(shí)學(xué)習可能是非常努力也可能是非常懶散;老師可能把
考試題出的很難,也可能出的很容易。從博弈論的角度,這里的老師和學(xué)生就構成了一個(gè)博弈,雙方的報酬矩陣如下:
老師出考題
難
易
學(xué)生學(xué)習
努力
90,85
100,90
懶散
50,60
90,70
圖8-3
由于老師出難題比出容易題要花費更多的時(shí)間和精力,所以收益較低,從而無(wú)論學(xué)生平時(shí)努力程度如何,老師一定選擇出容易的題;由于學(xué)生只要努力學(xué)習就會(huì )取得更好的
成績(jì),所以無(wú)論老師所出考題難度如何,學(xué)生一定會(huì )選擇努力學(xué)習,這同樣構成一個(gè)占優(yōu)均衡。經(jīng)常遇到的還有一種均衡,是有條件的均衡,叫做納什均衡。簡(jiǎn)單的說(shuō)就是敵變我變、敵不變我亦不變。在后面第二節中將詳細介紹納什均衡。六、囚犯兩難困境(prisoners’ dilemma) 囚犯兩難困境是博弈論中一個(gè)著(zhù)名的例子,講的是甲乙兩名嫌疑犯作案后被警察抓住,分別被關(guān)在不同的屋子里受審,雙方不能互通消息,每名嫌疑犯都面臨坦白和不坦白兩種選擇。警察告訴他們:在兩人都坦白的情況下,各判刑10年;在兩人都不坦白的情況下,各判刑3年;在一人坦白另一人不坦白的情況下,坦白的一方會(huì )被從輕處罰,只被判刑1年,不坦白的一方則被重判15年??梢愿鶕拱缀笫欠駮?huì )受到制裁兩種情況來(lái)討論最終的均衡結果。 1、坦白后不會(huì )受到制裁時(shí)的情況 此時(shí),雙方收益矩陣如下:
乙
不坦白
坦白
甲
不坦白
-3,-5
-15,-1
坦白
-1,-15
-10,-10
圖8-4
如圖,在乙不坦白的情況下,如果甲坦白,甲會(huì )被從輕處罰,只被判刑1年,乙被重判15年;如果甲也不坦白,由于證據不足,甲乙都只會(huì )被判刑3年。在乙坦白的情況下,如果甲也坦白,甲乙會(huì )被判刑10年;如果甲不坦白,乙會(huì )被從輕處罰,只被判刑1年,甲則被重判15年??梢?jiàn),在乙不坦白的情況下,甲最好是坦白,從而可以被從輕處罰;在乙坦白的情況下,因為被判刑10年總比15年要好,甲最好也是坦白,所以甲會(huì )選擇坦白。 同理,無(wú)論甲如何選擇,乙的最好選擇也是坦白。結果雙方都選擇坦白,都被判刑10年??梢?jiàn),我國
公安機關(guān)”坦白從寬,抗拒從嚴“的心理攻勢在大多數情況下都是可以奏效的。囚犯兩難困境說(shuō)明個(gè)人的理性可能導致集體結果的不妙。在現實(shí)社會(huì )中,人人都追求完美反而可能會(huì )導致社會(huì )變得很糟糕。 2.坦白后會(huì )受到制裁時(shí)的情況博弈論的一個(gè)重要思想就是規則改變報酬矩陣,改變了報酬矩陣就會(huì )影響到行為方式。如果犯罪
組織有著(zhù)嚴格的懲罰制度,任何一個(gè)罪犯坦白后,不論坦白的事情嚴重與否,犯罪組織一定會(huì )殺人滅口,并且總是能迅速做到。這個(gè)規則將改變報酬矩陣,新的報酬矩陣如下圖所示:
乙
不坦白
坦白
甲
不坦白
-3,-3
-15,-∝
坦白
-∝,-15
-∝,-∝
圖8-5 由于坦白后將被滅口,所以收益將是-∝ 。在乙不坦白的情況下,甲最好是不坦白;在乙坦白的情況下,因為被判刑15年總比死去要好,甲最好也是不坦白,所以甲會(huì )選擇不坦白。同理,無(wú)論甲如何選擇,乙的最好選擇也是不坦白。結果雙方都選擇不坦白,各自被判刑3年。