北大博弈论习题1 南京廖华答案网

北大博弈论习题1 下载本文

文章发布时间 : 2025/8/6 23:44:20星期三

博弈论习题

一、试给出下述战略式表述博弈的纳什均衡

B A

解：由划线解得知有一个纯战略均衡（D,R）再看看它是否有混合战略均衡设B以(?,1??)玩混合战略，则有均衡条件：

VA(U)?1???2(1??)?2?? VA(D)?4???6(1??)?6?2? 2???6?2?

得??4?1，这是不可能的，故无混合战略均衡，只有这一个纯战

略均衡。

二、试将题一中的支付作一修改使其有混合战略均衡

解：由奇数定理，若使它先有两个纯战略均衡，则很可能就有另一个混合战略均衡。

B A

U D

L 1,3 4,1 R 2,5 6,2 U D

L 5,6 4,1 R 2,5 6,2

将博弈改成上述模型，则 5??2(1??)?4??6(1??) 2?3??6?2? 得 ??45

同样，设A的混合战略为(?,1??)，则

6??1?(1??)?5??2(1??)

1?5??2?3? ??12

??11??41????22??55??于是混合战略均衡为??,?,?,??。

三、用逆向归纳法的思路求解下述不完美信息博弈的子博弈精炼均衡

1 2

(5,8) (6,7) (2,0) (3,4) (1,2) (3,4)

解：

1 L R

2 a b 1 1 2 L? R? L? R? c d

(5,8) (6,7) (2,0) (3,4) (1,2) (3,4)

设在1的第二个信息集上，1认为2选a的概率为P，则1选L?的支付?5P?2(1?P)?2?3P

1选R?的支付?6P?3(1?P)?3?3P?2?3P 故1必选R?。

? 给定1在第二个决策结上选R?，2在左边决策结上会选a，故子博弈

精炼均衡为

?L,R?,(a,d)?

四、两个厂商生产相同产品在市场上进行竞争性销售。第1个厂商的成本函数为c1?q1，其中q1为厂商1的产量。第2个厂商的成本函数为c2?cq2，其中q2为厂商2的产量，c为其常数边际成本。两个厂商的固定成本都为零。厂商2的边际成本c是厂商2的“私人信息”，厂商1认为c在?,3?上呈

2??2均匀分布。设市场需求函数为P?4?q1?q2，其中P为价格，两个厂商都以其产量为纯战略，问纯战略贝叶斯均衡为何？

解：给定q2，厂商1的问题是

max?1?(P?1)q1q1?1?

?(4?q1?q2?1)q1因q2?q2(c)。厂商1不知道c，故目标函数为

max3/24?q)qq1(1?q2(c)?11dc1?2

?max?3q23/2?q1?q1?q1?1q2(c)dc1??2??一阶条件： 3?2q1??3/21q2(c)dc?0

2 得 q31?2?13/22?1q2(c)dc 2厂商2的问题是：

max?2?(P?c)qq22 ?(4?q1?q2?c)q2

?(4?c)q2?q1q2?q22一阶条件：

(4?c)?q1?2q2?0 得 q4?c?q12(c)?2 代入式（1）：

q31?2?13/24?c?q12?1dc22 ?32?1?3/24?q113/212?1cdc2

24?2 ?3q

2?4??1??3?212148?????????????2??2??? ?3?q14 得q1?1 代入式（2）： q2(c)?3?c2

若c?1，则q1?q2?1

?1??2?1

1）2）（

（

若信息是完全的且c?1，则古诺博弈均衡为q1?q2??1??2?2725?1。

35?1，

这说明信息不完全带来的高效率。

五、试给出下述信号博弈的纯战略均衡中的混同均衡和分离均衡

(8,1) (1,2) a1 发送者 a1 m2 t1 m1

a2 0.5 a2 (2,7) (10,8) 接收者自然N 接收者 (6,5) （4,1） a1 0.5 a1

m2 发送者 m1 a2 t2 a2 (7,3) (3,7)

解：有四种可能：混同均衡 t1?m1，t2?m1 t1?m2，t2?m2 分离均衡 t1?m1，t2?m2 t1?m2，t2?m1 设u(mi)为接收者看见mi时认为发送者是t1的后验概率。

看t1?m1，t2?m1

则u(m1)?0.5，非均衡路径上u(m2)?[0,1] 当接收者看见m1，选a1的支付为 0.5?2?0.5?1?1.5

选a2的支付为0.5?8?0.5?7?7.5?1.5 故选a2。

当接收者看见m2，选a1的支付为 u(m2)?1?(1?u(m2))?5?5?4u(m2) 选a2的支付为

u(m2)?7?(1?u(m2))?3?3?4u(m2)

当t1选m1，接收者会选a2，t1得支付10，要求t1不选m2，对u(m2)无要求，因t1总会选m1。

当t2选m1，接收者会选a2，t2得支付3，要求t2不选m2是不可能的，因

t2选m2是占优于选m1的，故此混同均衡t1?m1，t2?m1不存在。

再看混同均衡 t1?m2，t2?m2

此时u(m1)?[0,1]为非均衡路径上的后验概率，

u(m2)?0.5

当接收者看见m2，选a1的支付为

0.5?1?0.5?5?3 选a2的支付为

0.5?7?0.5?3?5?3 故接收者必选a2。

当接收者看见m1时，选a1的支付为 u(m1)?2?(1?u(m1)?1?1?u(m1)

选a2的支付为

u(m1)?8?(1?u(m1)?7?7?u(m1)?1?u(m1) 故必选a2。

这样，无论发送者发出m1或m2信号，接收者总选a2，

?给定接收者总是选a2。

?故t1?m2，t2?m2不是混同均衡。

t1会选m1，t2会选m2。看分离均衡t1?m1，t2?m2 u(m1)?1，u(m2)?0

接收者看见m1时，必选a2 接收者看见m2时，必选a1 此时，t1选m1，t2选m2

?故t1?m1，t2?m2是一个分离均衡。

最后看分离均衡t1?m2，t2?m1 u(m1)?0，u(m2)?1 接收者看见m1时，必选a2 接收者看见m2时，必选a2

?给定接收者总选a2

t1?m1，t2?m2

?故t1?m2，t2?m1不是分离均衡。故只有一个纯战略子博弈精炼分离均衡 t1?m1 t2?m2

Jxbkaneking求助

1.在下列监工与工人之间的博弈中，试用划线法分析该博弈有无纯策

略纳什均衡；如果没有，那么写出混合策略纳什均衡的结果。

工人监工偷懒不偷懒监督 1，-1 -1，2 不监督

-2，3 2，2

2.求解下列博弈的纳什均衡，最好阐述一下求解方法和过程。博弈方2 博弈方1

上中下左4 32 13 0中5 18 412 6右6 23 62 9

likui106解答

第一题没有纯策略均衡，只有混合策略均衡（（0.25，0.75），（0.5，0.5））第二题可以根据画线法求得有唯一纯策略均衡（上，左）

兰烬落，屏上暗红蕉。闲梦江南梅熟日，夜船吹笛雨萧萧，人语驿边

桥。楼上寝，残月下帘旌。梦见秣陵惆怅事，桃花柳絮满江城，双髻坐吹笙。

在电影E.T中有一个用Hershey公司的R’eese’s Pieces牌巧克力米

引诱小外星人出树林的镜头。由于这个镜头的公众效应，使得R’eese’s Pieces牌巧克力的销量大增，Hershey公司终于赶上了其对手Mars

Universal Studio的原计划是在该电影中用Mars的M&Ms巧克力。但

是Mars公司拒绝了这一提议，认为E.T制片人提出的1000,0000美元的要价太高了。所以E.T的制片人转向Hershey公司，而该公司接受了这一条件

假设M&Ms巧克力在电影中出现会使Mars公司利润上升800,000美

元，且假设Hershey公司市场份额的增加会使Mars损失500,000美元。最后，假设b是Hershey公司公司因为其巧克力品牌被选上而得到的利益。

将前述事件用博奕数的形式表示出来。写出一个用b的函数表达的平

衡。如果该平衡不同于实际情况，你认为他们会怎样调节？

Jxbkaneking求助

1、设一个四阶段两博弈方的动态博弈如下图所示，请找出全部的子

博弈。求该博弈的子博弈完美纳什均衡策略组合。

2、A、B两个原始人合作捕杀猛兽的博弈。这两个原始人在捕杀猛兽

时要么逃跑，要么合作，不可抗拒。如A在战斗中逃跑待B擒得猛兽后又可坐享其成，因而对A 的利益来说这个对策的得益可记为10分。而B留下孤军作战，虽也有捕获猛兽的机会，但也有被猛兽咬伤的危险，权衡得失这个对策对B 的利益来说可记为0分。反之亦然。A、B同时逃跑，利用这段时间去采集野果、野菜之类，虽然没有肉食但也不是一无所获，故二人在记分上均记为2分。而如果A、B 都坚守阵地合作战斗，可将猛兽打死，均分其肉，各记得益为6分。

请分析该博弈的决策主体、策略集和得益（支付）；写出得益矩阵并

找出纳什均衡。

这是一道推理题，觉得有点类似于博弈就把它放到这里供大家讨论一

下

一列火车上有三个工人，史密斯、琼斯和罗伯特，三人工作为消防员、

司闸员和机械师，有三个乘客与这三人的名字相同。罗伯特住在底特律；司闸员住在芝加哥和底特律中间的地方；琼斯一年赚2万美金；有一个乘客和司闸员住在一个地方，每年的薪水是司闸员的3倍整；史密斯台球打得比消防员好；和司闸员同名的乘客住在芝加哥。95d565ef66?应届生求职网YingJieSheng.COM?4cb5d40ed4

请问谁是机械师？

史密斯是机械师，琼斯是司闸员，罗伯特是消防员

两个人就如何分配一元钱进行谈判，双方同时提出各自希望得到的分

额，分别为s1与s2，且01，则两个人均一无所获。求出此博弈的纯战略纳什均衡。

in1解答

每个人都希望自己拿得尽量多（至少一半），他们也都清楚对方也是

这么想的。显然，得到钱的好处总是大于一无所获，那么他们就会限制自己所希望得到的金额，一旦他们提出的金额都大于0.5，那么他们将什么都得不到，而小于0.5又不能使自己的利益最大化，而他们清楚对方也希望拿得尽量多，那么就不要期待对方会提出小于0.5的金额。所以，我认为，最后的那是均衡点，应该是（0.5，0.5）

Kissmeagain解答：NE是（a，b），a+b=1；chen1989不考虑重复博奕

的贴现，NE应该是(a,b),a+b=1,无穷多个均衡（标准答案）

Musashino求助：有个沙滩博弈，大家都知道吧，就是说两个人在一

条沙滩上开店，纳什均衡是，两个人都开在沙滩的中点。现在假设消费者偏好不是均匀的，每个消费者对左边的店的偏好是对右边的店的偏好的两倍。那要怎么求纳什均衡？

Yace解答：你的偏好两倍什么意思，是说如果二个店不重合的话，他

们之间2/3的顾客选择左边的店，1/3选择右边的店，而两个店两边的人仍然就近吗，如果是这样的话，NE不变，仍然是中点。

Cluo解答：相当于左边的距离加倍，再求中点不就可以了吗？显然两

家还是要挤在一起，因为逻辑没变。

Sumsmu求助：设某运输公司由两家公司所垄断，在市场竞争中，两

家公司的策略是运力投放量，公司1和公司2同时从可行策略集[0,无穷大）

中各选取运力投放量q1和q2；已知投入单位运力的成本为C，市场上单位运力的收益与市场总运力密切相关，且有：p(q1,q2)=0 (当12

Cluo解答：古诺模型换一种说法而已，套公式吧。

Musashino求助：著名的沙滩博弈,两个人在一条均匀的沙滩上设店,

其中纳什均衡是两个人都在中点，如果这个时候,有三个人要开店,那要怎么求这个题目?书上说了没有纳什均衡,但是要怎么去解这个思路?

Yace解答：关键点在于三个人是完全相同的且全部足够理性，只有保

证每个人平均能覆盖1/3的顾客的解才可能是NE，所以没有NE，完全相同是说三个人是对称的，不分顺序的,这就导致最后的解只能有两种可能，1 三个人在同一点开店；2 三个点的地址都不同，这样就排除了两个店在同一点第三个店在另一点的情况。第一种情况不可能因为只要一个店稍微偏离一点就可以获得更高的利润，第二种情况也不可能,由对称性很容易可以解出此种情况下的三者位置分别为1/6,1/2,5/6。但是很容易，验证，这不是NE

小明和小强都是张老师的学生，张老师的生日是M月N日， 2人都知道张老师的生日是下列10组中的一天，张老师把M值告诉了小明，把N值告诉了小强，张老师问他们知道他的生日是那一天吗？ 3月4日 3月5日 3月8日 6月4日 6月7日 9月1日 9月5日

12月1日 12月2日 12月8日

小明说：如果我不知道的话，小强肯定也不知道

小强说：本来我也不知道，但是现在我知道了小明说：哦，那我也知道了

请根据以上对话推断出张老师的生日是哪一天

小田解答：是6月4号。小强开始不知道，说明这个N重复，可排除

6.7和12.2，他又从小名的话容易判断，可知是6月那组的。

Sukeicy解答：9-1，由“如果我不知道的话，小强肯定也不知道”可

知小强没有拿到7号2号,排除6月12月，由“本来我也不知道，但是现在我知道了”可知小强拿的是1号，因为剩下的3月9月里面有1号4号5号8号，如果小强拿5号，他就不知道，如果小强拿4号，或8号，那么小强知道答案，但是小明拿3月是判断不出答案的，由“哦，那我也知道了. ”就可知小明拿的是9月。

Kissmeagain解答：由“如果我不知道的话，小强肯定也不知道”可

知小强没有拿到7号2号,\排除6月12月\，直接排除了6，12月似乎不妥？我还是比较赞同6月4号的说法。

Colinzc解答：我还是赞同9-1。因为小明说“如果我不知道，小强也

一定不知道”，如果小明知道的M是6的话，若是小强知道的N为7不就一定知道了吗？所以6月和12月是需要排除的。此时小强拿到的就是1，因为12月被排除了，所以他一下子就知道是9月了，这时小明也就知道了。所以我认为应该是9-1。

li185求助：关于代理委托的数学题。以下是代理人采取不同行动的期

望收益：行动Ｅ（１）＝０.６Ｕ（ｇ－ｆ）＋０.３Ｕ（ｍ－ｆ）＋０.１Ｕ（ｂ－ｆ）－D(h)，行动Ｅ（２）=0.1U(y-f)+0.3U(m-f)+0.6U(b-f)-D(L)，其中：D（h）=10,D(L)=0,g=200,m=100,b=50,U（w）=w0.5，求解：激励相容下委托人可以索取的最高特许经营费为多少？

Keliya求助：海盗的分配问题。10个海盗要求按大海盗，二海盗，...

直到10海盗的顺序提议分配100枚金币，当然不是说你提议了就会被通过，任何人的提议需要不被半数人反对，否则

只有把提议人扔进大海，再由后面一个提议。问，到底怎么大海盗做，

才能使自己收益最大化？

Yilin解答：是否这样：

94，0，1，2，0，1，0，1，1，0 推断如下（逆推）：

海盗号码：1，2，3，4，5，6，7，8，9，10 倒数1轮： 99，1，0 倒数2轮： 97，0，2，1 倒数3轮： 97，0，1，0，2 倒数4轮： 96，0，1，2，1，0 倒数5轮： 96，0，1，2，0，0，1 倒数6轮： 95，0，1，2，0，1，1，0 倒数7轮： 95，0，1，2，0，1，0，0，1 倒数8轮： 94，0，1，2，0，1，0，1，1，0 这里倒数8轮还有其他方法，略。

武松求助：在博弈双方都有两种以上类型的静态博弈中，求解某一种

类型下某一特定行动的期望收益怎么求？

nlj511求助：题目：有两个八升的容器，和一个三升的容器，两个八

升容器都装满水，共16升水，怎么利用3升容器将16升水平均分给四个人喝？

答案：给大家唯一解：后面是喝的数量 553 3 823

803 2 533 560 263 281 280 1 082 073 343 640 613 811 1 800 1 332 3 3 2

麻醉求助：论述一下纳什均衡与上策均衡的联系和区别。

liuweibing2002解答：上策均衡就是占优均衡，如囚徒困境中双方都

选择坦白就是一种占优均衡，这是一种绝对意思的占优；纳什均衡则是一种相对的占优均衡。上策均衡是纳什均衡，但纳什均衡不一定是上策均衡，上策均衡应用的范围很小，而纳什均衡适用的范围就要大一些。

Czrzyy求助：有甲、乙、丙三个精灵，其中一个只说真话，另外一个

只说假话。还有一个随机回答(自己决定何时说真话何时说假话)。你可以向这三个精灵发问三条是非题(一共只问三个问题，且每次只能向一个精灵发问，即不能同时让三个精灵回答同一个问题)，而你的任务是找出谁说真话谁说假话谁随机答话。精灵会以「Da」或「Ja」回答，但你并不知道它们的意思，只知道其中一个字代表「对」，另外一个字代表「错」。你应该问怎样的

三个问题呢?

我的同学设计的三个问题是：

第一个问题是：１+１等于２是ya的 ,对不对？第二个问题是：２+２等于４是ya的，对不对？

第三个问题的思路是根据前２个问题的答案，来判断前２个精灵的特

点．（若前２个精灵的回答一样，可以判断第三个．然后根据第三个精灵的回答再推断前２个精灵的情况．）。其中第三个问题是建立在前２个问题基础上，在大多数情况下可以做出对三个精灵的准确判断，但不能１００％保证做出正确判断．

y12345678解答：三种精灵，分别为T（Ture，说真话）、F（False，

说假话）、U（Uncertain，随机）。给题目中的三个精灵编号为A,B,C，如果同时可以向多个精灵发问，比较简单

第1问-----Q1 ：搞清楚Da，Ja的含义。向任何一个精灵问：“你是T

精灵吗？”无论对方说Da还是Ja，都是“对”的意思。这样提问者就能明白精灵的意思了，以下不再使用Da和Ja，只用“对”、“错”表示精灵的回答。

第2问-----Q2 ：找到一个T或F的精灵，同时问这3个精灵：“你是

不是U精灵？”。只有“对”、“错”2种可能，T精灵和F精灵的回答肯定相反，所以3个回答，一定会有两个一样，另一个与其他的相反。不妨设A精灵与众不同，A肯定不是U。如果回答“对”，则A是F，如果回答“错”，A就是T。

第3问-----Q3 ：确定其他两个精灵的属性。这一问最简单，因为已

经知道A的真假属性，只要向他问就好了。

如果每次只能向一个精灵发问的话，问题就难了很多第1问-----Q1 ：

找出一个T或者F精灵，这步最难。

向A精灵问：“如果我说B是U精灵，你会回答Da吧？”

如果A回答Da，则C精灵（第3个精灵）是T或F 如果A回答Ja，则B精灵是T或F 第2问-----Q2 ：

确定这个被找到的精灵是T还是F，不妨设上一问找到的是C精灵向C精灵问：“如果我说你是T精灵，你会回答Da吧？” 如果C回答Da，则C精灵是T 如果C回答Ja，则则C精灵是F

第3问-----Q3 ：

确定其他两个精灵的属性。这一问最简单，只要确定了一个，另一个

就清楚了。

只需指着B精灵向C精灵问：“如果我说B是U精灵，你会回答Da

吧”

如果C回答Da，则B精灵是U；A精灵是F 如果C回答Ja，则B精灵是F；A精灵是U

Ephent：新囚犯问题 (案例讨论) 原题:

5个囚犯，分别按1-5号在装有100颗绿豆的麻袋抓绿豆，规定每人

至少抓一颗，而抓得最多和最少的人将被处死，而且，他们之间不能交流，但在抓的时候，可以摸出剩下的豆子数。问他们中谁的存活几率最大？？

提示：

1，他们都是很聪明的人

2，他们的原则是先求保命，再去多杀人 3，100颗不必都分完

4，若有重复的情况，则也算最大或最小，一并处死

以下是个人分析:

假设1号和2号囚犯抓完绿豆,接下来轮到3号囚犯,3号囚犯摸了一下,

剩下60颗(也可以假设剩下X 颗),这时3号囚犯知道了1号和2号囚犯两人共拿了40颗,聪明的3号囚犯可以立即选择拿20颗绿豆,这里可以这样分析:

1号和2号囚犯可能1号拿1颗绿豆,2号拿39颗,记为(1,39),也可能

(2,38),(3,37)....(19,21),(20,20),(21,19)....(39,1);这里可以看到,只要时1号和2号囚犯不是(20,20)的情况,3号囚犯抓20颗绿豆的数目在1号和2号囚犯绿豆数目中间,这样囚犯3可以绝对保命;如果1号和2号囚犯是(20,200的情况,囚犯3也只是跟他们一样数目,不是最大也不是最小,所以囚犯3拿20颗绿豆是最安全的.(即囚犯3应拿1号和2号囚犯拿走绿豆数目的平均数).

同样的分析,囚犯4犯摸了一下,剩下40颗,囚犯4会拿20颗绿豆;这时

剩下囚犯5,囚犯5拿20颗则全部处死刑,拿少于20颗则囚犯5因为最少颗被处死,囚犯1,2,3,4则因为一样最多全被处死刑.

这里分析了囚犯3.4.5的最优策略,选择前面人的平均数.(若平均数不

为整数,则取最小整数,如19.5就取19)

现在分析囚犯2的策略:假设囚犯1拿了20颗(也可以假设Y颗),这时

囚犯2不拿20颗,我们先取18颗来分析,接下来3,4,5号会取前者的平均数19,这样囚犯1和2两人将被处死刑.若囚犯2取22颗,囚犯3,4则会取平均数21颗,这时轮到囚犯5剩下16颗绿豆,囚犯2因为最多被处死刑,囚犯5因为最少被处死刑.所以囚犯2的最优策略是:(1)囚犯1拿多于20颗,囚犯2就拿20颗;囚犯1拿小于20颗,囚犯2就拿跟囚犯1一样多.

囚犯2,3,4,5的最优策略已经知道了,囚犯一是聪明人,他也当然知道其

他是怎么想的,囚犯1没有最优策略,只有劣势策略:拿1颗绿豆或拿多于20颗的绿豆.

按这里的分析,5个囚犯的最终命运都是被处死刑,这个问题似乎是囚

犯困境的另一种解释:即每人都选择对自己最有利的选择,结果对大家是最不利的!

以上为个人愚见,欢迎大家提出新的见解,或提出本观点的错误,谢谢! 月亮米拉疑问：为什么非要拿20个纳？是不是认为取平均数？？我

个人认为在这个共同知识的假设上有问题，每个人的策略是什么？

Ephent回答月亮米拉疑问：这里取２０个只是举例．也可以取其他数

目，但可以知道的是取１个或２０以上的数目是劣势策略．

取一个必死无疑就不用说了．取２０个以上，比如２１个，这样囚犯

２完全可以取２０个保证不死，因为接下来囚犯３，４，５一定有人少于２０个；囚犯３知道囚犯１和２取了４１个，一定会取２０个，因为他也知道囚犯１或２一定有人多于２０个，他取了２０个后留下３９个给囚犯４和５，他们一定有一个人少于２０个，这样囚犯３也可以保证不死．同样在剩下的３９个中囚犯４也会取２０个，这样剩下１９个囚犯５无论取多少个都要死．

所以囚犯１取２０个以上的结果是：囚犯１和５分别被以最多和最少

个处死！所以囚犯１是不会取２０个以上的．而囚犯取２０个或２０个以下的数目的结果则是５个人都处死！

Luluxiong解答：我的理解与Ephent的一致,如下:

第一步:1号囚犯不会选择20以上的豆子,因为他知道如果自己选择了

20以上的豆子,2号囚犯选择的豆子数不会大于1号囚犯,否则他有成为取豆子最多人的风险,所以2号囚犯选择的豆子数少于1号囚犯,比如说少1个,但根据题意,他绝对不会成为选择豆子最少的,因为1号和2号所取的豆子数已经超过了平均数.一句话,只要1号囚犯选择20以上的豆子,2号囚犯有100%的机率活命,1号才不会当这个冤大头.

第二步,1号如果选择平均数20个,2号选择19和21个都有可能成为

最少或最多,根据假定,他们都抱着“我死也不会让他人活的心理”结果，2至4号囚犯都只会选择20个，第5号囚犯选择多少也就没有意义了，大家都得死。

第三步，因为大家都是极其聪明的人，也就是完全理性的经济人，所

以1号不会选择20及20以上个豆子对所有囚犯都是一种共同知识，同理，如果1号选择20以下的任何一种，2的选择或者比1号多一个，或者少一个，如果2号的选择比1号少一个，3号的选择会与2号或1号相同，依次类推。总之，他们不会使选择的豆子差到两个及以上，这样会给他人求生的机会。

最后的结果，大家都得死，因为根据第二个假定，他们不会牺牲两个

人，保全其它人。

Zqdong的解答：Ephent的结论是对的。这里我来尝试给出一个标准

的逆向归纳解方案。令5个囚徒的选择的数量分别是x1,x2,x3,x4,x5,

第五个囚徒的策略选择

当(x1+x2+x3+x4)/4>100-(x1+x2+x3+x4)，即x1+x2+x3+x4>80，囚徒

五无论如何都达不到前四个囚徒的平均数，因此他只有尽可能多拿，则x5*=100-(x1+x2+x3+x4)；反之，x1+x2+x3+x4≤80，则保持与前四个囚徒平均水平是占优策略，则x5*=(x1+x2+x3+x4)/4。

第四个囚徒的策略选择

他已观察到前三个囚徒的x1+x2+x3，加上其自己的选择x4，若有

x1+x2+x3+x4≤80，则他知道囚徒将选择x5*=100-(x1+x2+x3+x4)，因此他保持囚徒一、二、三、五的平均数是占优的策略，即

x4*=(x1+x2+x3+ x5*)/4

将x5*代入可计算出：x4*=(x1+x2+x3)/3 （不妨将x4*返验其条件，

则此选择成为占有策略应是满足条件x1+x2+x3≤60）。

那么，当x1+x2+x3>60（这里是严格大于），则囚徒四可判断前三人

中必有人超过20颗豆（则自己不超过20就不会成最高），而剩下的严格少于40可豆中，自己只需拿走20（则必使后继者有人少于20）就不会使自己成为最少者。故拿走20乃万全之策。

第三个囚徒的策略选择

囚徒3观察到x1+x2，又可前瞻x4*和x5*，他试图取其他四人的平均

水平，即

x3=(x1+x2+x4*+x5*)/4

将x4*和x5*代入，有x3*=(x1+x2)/2 （当然，这里仍需要考虑约束

条件x1+x2+x3+x4≤80和／或x1+x2+x3≤60，用x3*返验该约束条件，即x1+x2≤40）

反之，若x1+x2>40，则囚徒三可肯定囚徒一二中必有人超过20颗，

剩下不足60颗豆中自己只需拿走20就可使后继者必有少于20者，因此20是最佳反应。

第二个囚徒的策略选择

囚徒2观察到x1，前瞻到x3*，x4*，x5*，他也可以通过拿其他四人

平均数的方法来选择

x2=(x1+x3*+x4*+x5*)/4，将x3*和x4*和x5*迭次代入，可得x2*=x1

（返验约束条件有x1≤20）。

若x1>20，则囚徒2选择20是最佳策略（此可保证自己少于x1，但

又不是最少，因为自己拿20颗以剩下不足60由三人拿，必有后继者少于20）。

第一个囚徒的策略选择

他其实应前瞻到：(1)自己选择20或以下的策略，则囚徒2则必跟随

自己拿x2*=x1，以后的囚徒均按照前人的平均数取，均衡结果是x1*=x2*=x3*=x4*=x5*≤20。

(2)若自己选择超过20，则囚徒二选择20，囚徒3取20，囚徒4取20，

囚徒五少于20；结果是自己和囚徒五被处死。

yachtdew请教非零和对策问题：有两家公司，公司Ⅰ每星期生产200

台彩色电视机或者生产100台黑白电视机和100台彩色电视机;公司Ⅱ每星期可以生产50台彩色电视机或100台黑白电视机。市场对彩电和黑白电视的需求量分别是200台/星期和100台/星期，售价分别为每台2000元和每台1000元。公司Ⅰ的生产成本为:彩电每台1500元，黑白电视机每台600元。公司Ⅱ的生产成本为:彩电每台1600元，黑白电视机850元。如果生产大于

需求，两家公司将按照各自的产量在总产量中占有的比例确定售出量(例如假定Ⅰ生产200台彩电，而Ⅱ生产50台，需求量为200台，则Ⅰ和Ⅱ的售出量分别为200/250×200=160台和200/250×50=40台)。电视机售不出去，公司不仅得不到利润，相反却仍要支出生产成本，现在我们将这个问题构成一个2×2非零和对策，并求其解。

公司Ⅰ有两个策略: 1:生产200台彩电

2:生产100台彩电，100台黑白电视机公司Ⅱ有两个策略: 1:生产50台彩电 2:生产100台黑白电视机

该问题的赢得矩阵为:（20000，0）（100000，15000）（90000，100000）（40000，-35000）

这显然是一个2*2非零和对策，如果公司Ⅰ和公司Ⅱ不合作，公司Ⅰ

的最大最小值为V1=63077(元)，公司Ⅱ的最大最小值为V2=4286(元)。

请问这个赢得矩阵是怎么出来的？为什么啊？

lanh_113求助：考虑下面的贝兰特德双垄断模型在对称信息下的情况，

两企业的产品存在差异。对企业i的需求为qi (pi ,pj )=a- pi – bipj ，两企业的成本都为0。企业i的需求对企业j的价格的敏感程度有可能较高，也可能较低，也就是说，bi可能等于bH ，也可能等于bL ，这里 bH > bL >0 。对每一个企业，bH = bi的概率为θ，bi= bL 的概率为1-θ，并与 bj的值无关。每一企业知道自己的bi ，但不知道对方的，所有这些都是共同知识。此博弈中的行动空间，类型空间，推断以及效用函数各是什么？双方的战略空间各是什么？此博弈对称的纯战略贝叶斯纳什均衡应满足哪些条件？求出这样的均衡解。

huang000lei求助：两个人A，B凑钱买东西，同时分别出自己的钱

CA，CB，可买的东西有两样，S,T, S比T贵。如果CA+CB>S，就买S;如果S>CA+CB>T，就买T。否则什么也不买。其中B希望买S， T对他没有价值；A则买T买B无所谓，获得的价值一样。这种局势是否构成一个博弈？（条件够吗？）有解吗？

allan9182736求助：关于植草益产业组织学的一个问题，请那位高手

指导一下：小弟学习第七章短期利润最大化， π′q= p【1-1/ε（1+k）·s】-v，按推算则p=v/【1-（1+k）·s/ε】为何书上却写为p=v/【1-1/（1+k）·s/ε】，怎么也搞不明白？

Colinzc求助分钱与海盗分珠宝的差别：关于两个人分100元钱和五

个海盗分珠宝的博弈，看上去性质似乎差不多，结果上也是先行者有优势，但是为什么结果上感觉前者没有后者的博弈那么均衡呢？我觉得是否是因为两个人分100元钱中，最大的损失也就是100元，但在分珠宝中，损失是生命，所以参与人在博弈过程中更为理性和不那么计较，所以哪怕只得到1个珠宝也愿意。

忧伤河的水：新100囚犯题

100个死囚，关在100个单人牢房，牢房排成一个圆圈。国王的特赦

令是：每个囚犯早上必须在后窗挂起红旗或者黄旗。如果有连续100天，第k天只有第k间牢房挂起红旗，其他全是黄旗，就释放所有死囚。如果三年后还没完成，所有人全部拉出去砍了。囚犯可以先开一个会，会后所有人会被随机分到一间牢房，而且不知道自己的房间号。为了阻止囚犯们得到特赦，囚犯们并不是同一天被关进自己的牢房，而是先被麻醉，又关进不见天日的小黑屋一段日子，所以每个囚犯都不知道自己到底是哪一天被送进自己的单人牢房。每个囚犯进自己牢房的第一天会得到一个数,范围在0-100之间（可

能有人得到相同的数）。囚犯相互之间唯一的交流方法是每天晚饭时每人可以报一个数，这个数与他上一次得到的数差距不能超过10----（数是循环的，0和100的差距是1），由看守在熄灯时给他的左边邻居，如果某间牢房里暂时没有犯人，看守会编一个数传下去，由于囚犯开会是被监视的，所以看守可以利用这个机会进行破坏。请问囚犯们怎么办？注：三年的期限是从所有囚犯都进入自己的牢房开始算。

5名海盗，夺得100颗宝石

分赃规则：海盗1提出分配方案，若5名海盗(包括1自己)半数以上(不

含半数)票同意，则实施1的方案，否则杀死1，由2提方案

2的方案由现有4名海盗投票，半数以上同意则实施2的方案，否则

杀死2，然后由3提方案；如此反复，依此类推。

问：海盗1如何提出自己的分配方案可以获得最大的好处（假设每个

海盗都绝顶聪明且理性）

以下是个人见解：

这个例子为迪克西特所说的相继出招的博弈，应用其法则1：向前展

望，倒后推理。

假设剩下最后海盗4和海盗5两个人时：海盗4无论怎么分（除非全

部100个金币都给海盗5）海盗5都会不同意，从而海盗4会因为不过半数而被杀，这样海盗5可以独霸100个金币。

这里说了海盗都是绝顶聪明且理性，所以对海盗3的方案海盗4否决

会把自己推向很不利的境况，而海盗5则会竭力否决，因为只要海盗3的方案被否决了，海盗5接下来可以拿到100个金币。所以海盗3知道了海盗4和海盗5的策略，因为那是海盗4和海盗5剔除劣势策略后的唯一策略，所以海盗3会这样分：99个给自己，1个给海盗4，海盗5没有。（海盗4不接受的话接下来会一个金币也拿不到，还可能丢掉小命，所以一定要接受，这时海盗5反对也会2票比1票通过），海盗4和海盗5唯一可以避免这种结

果的是：考虑支持海盗2方案。

就在海盗4和海盗5这样分析时，绝顶聪明的海盗2也分析到了海盗

4和海盗5会支持自己，而海盗3则一定会反对，所以他会选择这样分：97个给自己，2个给海盗4，1个给海盗5。（因为海盗5最糟糕的是一个都没有，如果你不给一个给他，他一定会反对，同时威胁接下来的海盗：“如果一个都不给我，我一定反对！”。海盗4则认为：“海盗3至少会给1个给我，如果海盗2只给1个给我，我可以反对了再拿海盗3给我的1个金币，同时也可以给海盗3看看，如果你到时不给一个金币我，我会像否决海盗2一样否决你，然后全部100个金币都给海盗5。）

海盗3想拿99个金币已经过不了绝顶聪明的海盗2的一关，但他可以通过支持海盗1的方案而避免一个金币都没有的最糟糕结果。这时绝顶聪明的海盗1已经有了自己的方案了：94给自己，1个给海盗3，3个给海盗4，2个给海盗5。这里一定要给他们比海盗2给的方案多一个，要不他们很可能反对而接受海盗2的方案，分析跟上面的类似。这样的方案一定可以通过，因为原题假设每个海盗都绝顶聪明且理性。他们不会否决后导致自己更不利的结果。虽然眼争争看着海盗1拿走了大头。

如果以为这道题就以海盗1的方案结束的话就错了，因为这个方案还

不是海盗1的最优策略，这里只要3票就可以通过，所以可以放弃一张支持票而拿多点金币，所以海盗1放弃了最难拉拢的海盗4，因为他要3个金币才肯支持，所以海盗1的最后方案是：97个给自己，1个给海盗3，2个给海盗5。最后以3比2最终通过方案！

（修正：这种情况应该不叫相继出招，应该叫轮流出招好一点，但向

前展望，倒后推理法则是同样适用的。）

Wangfafen发言：在海盗4提出分配方案时，海盗5绝对不会同意，

海盗4只有死路一条。所以海盗4绝对不会希望海盗3死，也就是他会无条件支持海盗3的分配方案，因此海盗3提出的方案将是（100，0，0）。

海盗2洞悉海盗3的方案，将会提出（98，0，1，1），放弃海盗3，

而海盗4和海盗5的收益比海盗3的方案中的多，所以都会支持海盗2的分配方案。

海盗1洞悉海盗2的方案，将会彻底放弃海盗2，提出（97，0，1，0，

2）或者(97,0,1,2,0)的方案，海盗3在此中的收益大于海盗2的方案，所以会支持，获得两颗宝石海盗4或5也比在海盗2中的到的多，所以也会支持海盗1的分配方案。所以最后的结果有两种，但1将获得97颗宝石。

Rostron发言：如果只剩下海盗4、5，海盗4必死无疑。

第一，如果海盗3能进行分配，这时有三个人，为了保命海盗4一定

会同意海盗3的意见，海盗5一定反对，所以海盗3一定是100、0、0，这就是海盗3分配的结果。

第二，如果海盗2进行分配，这时有四个人，对于海盗3，海盗2是

没有办法拉拢的，海盗3一定反对，以进行到第一种情况，海盗2策略就是拉拢海盗4、5，如果海盗2死了，结果就如上第一所示，所以海盗2的策略是98、0、1、1，这样海盗4，5比第一种情况的收益多，所以会帮海盗2。

第三，如果海盗1分配，海盗2一定会反对，这时五个人都在，海盗

1有可能拉拢海盗3、4、5中的任意两个，所以海盗1的策略是97、0、1、2、0，因为海盗3和4比进入第二步的收益多，肯定会支持海盗1；或者97、0、1、0、2，因为海盗3和5比进入第二步收益多，所以会支持海盗1。

所以结论是海盗1的策略是97、0、1、2、0或97、0、1、0、2。范大水发言：既然大家都很聪明，就知道生命的可贵。宁愿放弃宝石，

也要留住小命。所以海盗1的办法是：98.1.0.1.0。

分析；海盗5无论哪个人分都会反对，因为他要分得全部宝石，所以

海盗4不会只留下两个人；如果只剩3.4.5的话，海盗3会给自己99，海盗4只分给1颗，否则一颗也得不到还要丢掉生命；如海盗2分的话，海盗3.5肯定都会反对，他同样一个也得不到还要丢掉生命；所以海盗1的分配方法经管不公平，海盗2.4虽然只有1颗宝石但能够活命，所以会同意海盗1的

分配。

1.只剩海盗4、5时，无论海盗4如何分配，海盗5都不会同意，所以

海盗4死。

2.只剩海盗3、4、5时，海盗5仍不会同意分配方案，而只要给海盗

4分1颗既可（99.1.0）。

3.只剩海盗2、3、4、5时，不管海盗2如何分配，海盗3、5都不会

同意，因为海盗3要得99颗宝石，海盗5要得全部，所以海盗2死。

4.鉴于以上原因，只要海盗1分配给海盗2、4每人一颗宝石，使他们

既不丢性命，又得到宝石，所以同意海盗1的分配方法（98.1.0.1.0）

这才是符合题目的最大利益自己得，又不丢性命。

自然曲线发言：1.只剩海盗4、5时，无论海盗4如何分配，海盗5

都不会同意，所以海盗4死。

2.只剩海盗3、4、5时，海盗5仍不会同意分配方案，而海盗4无论

如何都会支持海盗3，所以方案为（100，0，0）。

3.只剩海盗2、3、4、5时，不管海盗2如何分配，海盗3都不会同意，

因为海盗3要得全部，所以海盗2方案（98，0，1，1）。

4.无论海盗1如何分配都会支持，海盗2都反对。因此海盗1方案（97，

0，1，0，2）。或者（97，0，1，2，0）。

一起毕业的发言：强盗分赃问题解答的盲点关于强盗博弈还真有一个模糊不清之处：

因为，4号除了无条件支持3号之外，还有一个策略：那就是提出(0，

100)的方案，让5号独吞金币，换取自己的活命。如果这个可能成立的话(不要忘了“完全理性”的假定，既然可以得到所有钱，5号其实并不必杀死4号)，那么3号前面的策略就显然失败了，4号如果一文不得，他就有可能投票反对3号，让他喂鲨鱼。

你可能要反对：作为理性人，4号干吗要做“损人不利己”的事呢？而且，这多少还要冒可能被扔下海的风险？

是呀，有道理。可是，如果大家都是理性人，5号在得钱后可以不杀

死4号，那么对4号来说，投票赞成和投票反对3号都是一样的，也就是说，无论他怎么选择都可以。3号当然不应该把希望寄托在4号的随机选择上。

如果我们允许有一点点“非理性”存在，即5号还是可能在不必要的情况下杀死4号，那么4号是不该冒这个风险；可是同理，3号也不该冒没有必要的风险。无论是哪种情况，他都应该给4号1枚金币，使其得到甜头，支持自己。这样他的“保险方案”就是(99，1，0)；相应地，2号的方案也要修改一点，比3号多给4号1枚，使其支持自己，也就是(97，0，2，1)。对于1号来说，倒是不必多掏钱，而是减少了两枚金币收买4号这一种可能性，也就是说，前面所说的“标准答案”只剩下了一种，即(97，0，1，0，2)。当然，他也可以选(96，0，1，3，0)，但是由于收买4号要比收买5号多花1枚金币，所以也就算不上“最佳”方案了。

案例原文:

这个故事发生在一个地点不明的愚昧的大女子主义村子里。在这个村

子里，有50对夫妇，每个女人在别人的丈夫对妻子不忠实时会立即知道，但从来不知道自己的丈夫如何。该村严格的大女子主义章程要求，如果一个女人能够证明她的丈夫不忠实，她必须在当天杀死他。又假定女人们是赞同这一章程的、聪明的、能意识到别的妇女的聪明、并且很仁慈(即她们从不向那些丈夫不忠实的妇女通风报信)。假定在这个村子里发生了这样的事：所有这50个男人都不忠实，但没有哪一个女人能够证明她的丈夫的不忠实，以至这个村子能够快活而又小心翼翼地一如既往。有一天早晨，森林的远处有一位德高望重的女族长来拜访。她的诚实众所周知，她的话就像法律。她暗中警告说村子里至少有一个风流的丈夫。这个事实，根据她们已经知道的，只该有微不足道的后果，但是一旦这个事实成为公共知识，会发生什么？

在网上还有另外一种类似的版本!分析方法应该一样!在这里贴上来.

案例原文:

有50家人家每家一条狗有一天警察通知,50条狗当中有病狗,行为

和正常狗不一样每人

只能通过观察别人家的狗之间对比来判断自己狗是否生病，而不能看

自己狗，如果判断出

自己家的狗病了以后就当天一枪打死自己家的狗这样第一天没

有枪声第二天没有枪声

第三天开始一阵枪响问:一共死了几条狗 ?

需要补充条件：1.每天的白天观察、晚上杀病狗。2.所有村民都和解

题者有相同的智慧。

以下是本人以病狗案例来分析: [1].假设只有一只病狗.

病狗主人会看到其他49人的狗都是没病的.他知道一定有病狗,这样他

就可以知道,自己的狗是病的,晚上回去把病狗杀了.

其他人就看到一只病狗,而在晚上就听到了一枪杀狗的枪声.事件就此

结束.

[2].假设有两只病狗.

其中一只病狗A主人看到另一只病狗B,其他48只狗都是健全的(他自

己的狗自己看不到),如果他只狗是没病的,他应该在晚上听到一声枪声,但是他并没有听到,因为那个病狗B主人也不知道他只狗有病,他在等病狗A的主人当晚开枪杀狗!

所以,看到一只病狗的人,当晚没听到枪声是因为自己只狗也是病的,在

第二天晚上可以听到两声枪声.

其他的人每人看到两只病狗,第一天没听到枪声,他们也不出奇,他们知

道病狗主人在等对方杀狗,他们也预计得到第一天不会听到枪声,第二天时将会有两声枪声.

[3].假设有三只病狗.

其中一只病狗A主人看到另外两只病狗B和C,其他47只狗都是健全

的(病狗B和C的主人也看到一样的情况),如果他只狗是没病的,他应该在第二天晚上听到两声枪声,但是他并没有听到,因为其他两只病狗的主人也在做同样的事:等待两声枪声.

所以,看到两只病狗的人,第二天晚上没听到两声枪声是因为自己只狗

也是病的,在第三天晚上会有三声枪声.

其他的人每人看到三只病狗,前两天都没听到枪声,他们也不出奇,他们

知道病狗主人在等另外两人杀狗,他们也预计得到第三天时将会听到三声枪声.

以此类推,有多少只病狗,就会在第几天晚上听到多少声枪声. 同样分析寡妇村问题,前49天无事发生,因为每为妇女均看到另外49

个人的丈夫是不忠实的,所以他们在等第49天别人的49个丈夫被处死,但是第49天并没有人被处死,这时妇女们都知道了:所有人的丈夫都是不忠实的,包括自己的丈夫,所以在第50天,她们所有人都处死了自己的丈夫!遂成\寡妇村\

18世纪末，英国人开发澳大利亚之初，主要靠的是流放犯。一些私

人船主承包了大规模运送犯人的任务，船一旦离岸，按运送的人数从政府取得报酬，为了获得暴利船主尽量多运犯人，而且船只非常简陋，船上缺吃少穿，根本没有医药，因此，犯人死亡率很高。公众对此很不满，政府决定改变这种状态。请你为英国政府提出3个方案，并评估方案的优劣。

在伯川德价格博弈中，假定有n个生产企业，需求函数为P=a-Q，P

为市场价格，Q为n个企业的总供给量。假定博弈重复无穷多次，每次的价格被立即观察到，企业使用“触发战略”。求使垄断价格可以作为精炼均衡结果出现的最低贴现因子x。解释x与n的关系。如果观察滞后一个阶段（即t期的价格在t+1期被观察到），合作会变得更加困难吗？

1、假定代理人的效用函数是U=w(0.5)-a(就是根号w-a),其中w是工

资收入，a是努力水平；a有两个可能值：a=0或a=7。假定有两个可能的产

出水平：p＝0或p＝1000；代理人的努力水平影响不同产出出现的概率，如下表。委托人和代理人都能观察到产出，但只有代理人自己知道自己的努力水平。假定委托人是风险中性的，代理人的保留效用为u＝4，但代理人有绝对的讨价还价能力，从而委托人只能得到零期望利润。

问题：（1）什么是实现高努力的激励相容约束、参与约束和零利润约

束？

（2）如果工资是固定的，什么是代理人的效用水平？（3）什么是最优激励合同和最优合同下代理人的效用水平？（4）如果努力是可观察的，什么是代理人的效用水平？不可观测性

使得代理人承担了多大的成本？

努力a

不同产生出现的概率

本题取自首先由贝克尔提出并分析的一个模型。假设一个家长和他的

孩子进行如下的博弈：

第一，小孩选择一个行动，可使孩子获得收入Ic(A)，并使家长得到

收入IP(A)（可认为Ic（A）为孩子减去因A发生的各种成本后的净收益）；

第二，家长观测到收入Ic和Ip，然后选择给孩子的奖励或惩罚B。孩

子的收益为U（Ic+B），家长的收益为V（Ip-B）+k(Ic+B)，其k>0中反映出家长关心孩子的福利。假定行动是一个非负数字，A≥0,收入函数Ic(A)和Ip(A)为严格凹且分别在Ac>0和Ap>0达到最大值;奖励或惩罚B为或正或负的数字；且效用函数和递增并严格凹。

证明“宠坏的孩子”(Rotten Kid)定理：在逆向归纳解中，孩子选择可

使全家收入Ic(A)+Ip（A）最大化的行为，尽管在效用函数中，只有家长显示出利他的特点。

她以为她很美丽其实只有背影还可以我一点都不在意她

假设一家企业希望某工人能投资于企业专门技术S，但此技术非常模

糊，以致法院无法确定工人是否已经掌握i。（例如，企业也许会让职工“熟悉我们这儿是如何运作的”或“在我们的某潜在市场成为专家”。）从而企业无法与职工订立契约，偿付工人投资成本，即使职工确实进行了投资，企业也可以声称职工没有进行投资，并且法院无法辨别哪一方是正确的。类似的，如果企业预先支付费用，职工也不能保证会投资于企业的专门技术。

但是，企业能够通过（可信的）承诺提职来激励职工进行投资，具体

方法如下。假设企业里有两个工作岗位，一个容易（E），一个复杂（D），并且专门技术对这两个岗位都是有用的，只是对复杂的岗位作用更大一些yDO

博弈进行的时间顺序如下：在时点0企业选定wE和 w D ，工人观

测到企业选择的工资水平。在时点1工人加入企业并且能够以成本 c取得技能 S （这里我们忽略了第一阶段的产出及工资，由于工人尚未取得技能，企业聘用工人到岗位E 是有效率的）。假定

yDS - yEO>c ，从而对工人来说投资学习技术是有效率的。在时

点2企业观测工人是否取得了技术技能，然后决定是否在工人雇佣的第二（也是最后）阶段提升工人到岗位 D。

工人在岗位i 工作，技术水平为 j 时，企业第二阶段的利润为 yij –

wi.工人在第二阶段岗位i上工作的收益为 wi或 wi -c，决定于工人是否在第一阶段投资于工作技能。请求出博弈的逆向归纳解。参

Word文档下载：北大博弈论习题1.doc

搜索更多:北大博弈论习题1