博弈论的发展方法(博弈论之囚徒困境)

坦尼娅和辛克因抢劫Hibernia银行被捕并被关进单独的牢房他们都更关心自己的个人自由,而不是同谋者聪明的警官告诉他们两:“你们可以选择坦白或保持沉默如果你坦白,而你的同伙保持沉默,我将撤销对你的所有指控,并利用你的证词,确保你的同伙坐牢同样地,如果你的同谋认罪而你保持沉默,他将被释放而你将要服刑如果你们俩都认罪,我会给你们两个定罪,但我会保证你们提前假释如果你们都保持沉默,我就只能接受非法持有枪支的指控了如果你想招供,你必须在我明天早上回来之前留个条子”,今天小编就来聊一聊关于博弈论的发展方法?接下来我们就一起去研究一下吧!

博弈论的发展方法(博弈论之囚徒困境)

博弈论的发展方法

坦尼娅和辛克因抢劫Hibernia银行被捕并被关进单独的牢房。他们都更关心自己的个人自由,而不是同谋者。聪明的警官告诉他们两:“你们可以选择坦白或保持沉默。如果你坦白,而你的同伙保持沉默,我将撤销对你的所有指控,并利用你的证词,确保你的同伙坐牢。同样地,如果你的同谋认罪而你保持沉默,他将被释放而你将要服刑。如果你们俩都认罪,我会给你们两个定罪,但我会保证你们提前假释。如果你们都保持沉默,我就只能接受非法持有枪支的指控了。如果你想招供,你必须在我明天早上回来之前留个条子。”

囚犯们面临的“困境”是,自己的命运并不完全由己,但有一点可以确定的是,无论对方做什么,背叛总比保持沉默好。但两人都坦白(背叛)的结果比两人都保持沉默的结果更糟。

这个问题体现了个人理性和群体理性之间的冲突,一个成员追求理性利己主义的群体,会比一个成员违背理性利己主义的群体更糟糕。更一般地,如果收益不代表个人利益,那么一个群体的成员理性地追求任何目标,可能都比他们不理性地单独追求目标时获得的成功要少。


在博弈论中,二人二元选择博弈被表示为一个2乘2的矩阵。下表显示了一个假设的博弈矩阵。在这种情况下,两个参与人被称为A和B,选择被称为“合作”和“背叛”。

B 合作

B 背叛

A 合作

A 得 5 分

A 得 2 分

B 得 5 分

B 得 3 分

A 背叛

A 得 3

A 得 1

B 得 2

B 得 1

图1:假设的游戏矩阵

玩家A和玩家B可以单独(秘密地)选择合作或叛变。一旦每个玩家做出了选择,他就会向其他玩家宣布;然后两人在博弈矩阵中查找各自的得分。矩阵中的每一项都是一对数字,表示每个玩家的得分,取决于他们的选择。因此,在图1中,如果参与人A选择合作,而参与人B不合作,那么A得到2分,B得到3分。如果两名玩家都叛逃,他们各得1分。顺便说一下,请注意,游戏矩阵是一个公共知识问题;例如,玩家A在游戏开始前就知道,如果他和B都选择叛变,他们将各得1分。

在迭代游戏中,两个玩家会重复玩游戏:因此,在完成一款游戏后,A和B可能会玩另一款游戏。(不可否认的是,这里的术语有点混乱:你可以将每一款游戏看作是更大的迭代游戏的单一“回合”。)玩迭代游戏的方式有很多种;在最简单的情况下,A和B玩了固定数量的回合(比如200回合),在每一轮之前,他们能够查看之前所有回合的记录。例如,在进行第10轮迭代游戏之前,A和B都能够研究前9轮的结果。

一个简单博弈矩阵的分析

图1中描述的游戏是一个特别容易分析的游戏。让我们从参与人A的角度来看这个情况(参与人B的角度是相同的):

“假设B合作。然后我通过配合自己做得更好(我得到5分而不是3分)。另一方面,假设B背叛。我仍然通过合作做得更好(因为我得到了2分而不是1分)。所以不管B怎么做,我最好还是合作

当然,参与人B也会有同样的理由,双方都会选择合作。在博弈论的术语中,A和B都有一个支配性的选择。这是一种无论其他玩家选择什么都能给出首选结果的选择。顺便说一下,图1并不代表囚徒困境情境,因为当两个玩家都做出了主导选择时,他们也都获得了最高的个人分数。我们很快会看到一个囚徒困境博弈的例子。

总结一下:在任何使用图1矩阵的特定游戏中,我们都希望双方玩家能够合作;在一款迭代游戏中,我们希望两名玩家在每一轮游戏中都能够重复合作。

囚徒困境博弈矩阵

现在考虑图2所示的游戏矩阵。

B 合作

B 背叛

A 合作

A 得 3

A 得 0

B 得 3

B 得 5

A 背叛

A 得 5

A 得 1

B 得 0

B 得 1

图2:囚徒困境博弈矩阵

在这种情况下,玩家A和B都有一个主导选择——即背叛。无论玩家B怎么做,玩家A都会通过背叛提高自己的分数,反之亦然。

然而,这款游戏有一些奇怪的地方。似乎选择合作的两个玩家会从中受益。他们可以每人赢得三分,而不是每人只赢得一分。因此,相互背叛的“理性”选择带有一种令人困惑的自我毁灭意味。

图2中的矩阵是一个囚徒困境博弈的例子。为了使情况正式化,让CC是每个玩家合作时所赢得的点数;设DD为两者都有缺陷时所获得的点数;CD为合作方在其他缺陷时所获得的分数;让DC代表投诚的一方在对方合作时赢得的分数。那么囚徒困境的表征条件为:

DC > CC > DD > CD

CC (DC CD) / 2

在图2的博弈矩阵中,我们有:

DC = 5

CC = 3

DD = 1

CD = 0

两个条件都满足了。顺便说一下,在《雌雄大盗》的故事中,你可以证实:

DC = 0

CC = 1

DD = -10

CD = -20

同样,这些值满足囚徒困境条件。

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页