博弈论

评分：

6.0 还行

分类：剧情喜剧运动地区：美国年份：2007

简介：详情

查看详情

更新时间:2017-08-24

博弈论影评：第九课：混合策略

一、混合策略的定义
Pi（Si）：表示参与人 i 采用 Si 策略的概率
如果混合策略，赋予某个纯策略的概率为 1 ，其他纯策略概率为 0 ，也就变成一个纯策略了。
换而言之，纯策略是混合策略的特例。

混合策略 Pi 的预期收益为，它每个纯策略预期收益的加权平均数。
举例：

（其中，I 、II 表示参与人1和2，颜色字体分别对应每个选择的概率，红色表示参与人 I 选择 A 和 B 的概率，蓝色表示参与人 II 选择 a 和 b的概率）
那么这个博弈中，参与人 i 的预期收益如何计算？
1）首先：
选项 A 对参与人 II 选择的预期收益：Eu1（A，Pii）= 2 * 1/2 + 0 * 1/2 =1
选项 B 对参与人 II 选择的预期收益：Eu1（B，Pii）= 0 * 1/2 + 1 * 1/2 = 1/2
2）那么：
Eu1（Pi ,Pii）= 1/5 * Eu1（A，Pii）+ 4/5 * Eu1（B，Pii）= 3/5

由上面的结果，我们易知：
Eu1（Pi ,Pii）介于其两个选项 A 和 B 的预期收益 Eu1（A，Pii）和 Eu1（B，Pii）之间，在这个例子中3/5正好介于1 和1/2之间
也即，任何混合策略的预期收益都在它的每个纯策略的预期收益之间

这样，我们可以得到一个推论
推论1：当某个混合策略为一个博弈的 BR 时，它的每个纯策略都是 BR，别且它们和混合策略的预期收益都相同

二、混合策略的纳什均衡：
定义：
对于一个混合策略集合（P1*，P2*......Pi*，.......Pn*），当且仅当，对于任意参与人 i 在面对 P - i*时，他的混合策略 Pi* 是该参与人的最佳对策

那么我们设想一个混合策略集是纳什均衡时，由推论1可知 ——
推论2：这个纳什均衡中任意Pi ，一定有其每个纯策略都是这个博弈的最佳对策（BR），别且每个纯策略的预期收益都与混合策略的预期收益相同

举例，网球博弈如下图：

（注：这个博弈是网球击球博弈，其中L / R分别代表决策人 I 是像左击球还是向右，l / r 则表示决策人II 是向左防守还是向右防守。
其中的数字，分别代表两个决策人在选择了策略后他们得分的概率，之所以在猜错边依然不能100%得分，是因为有可能会基础边线。而之所决策人 II猜到 I 打右边仍旧是20：80，不是50：50，是因为考虑到 I 的右边正好是 II 的左边为非利手方向难以防守。
很明显这个博弈不存在纯策略的NE，所以不同颜色的 p 和 q 代表了允许使用混合策略时它们对纯策略的概率选择）

那么我们如何求出 p 和 q 的值呢？
根据推论2可知：
对于决策人 I 有， Eu1（L，Pii）= Eu1（R，Pii）
即，50q +80（1 - q）= 90q + 20（1 - q）
则 q = 0.6
同理，可得 p = 0.7
则，这个网球博弈的 NE = [（0.7，0.3），（0.6，0.4）]

我们继续思考这个NE的结论，它到底有什么实际意义呢？
如果你发现，参与人 II 的防守左边的概率大于均衡q ，即0.6，那么你该怎么做？
答案是，一直打右边 —— 一个纯策略。
如果参与人 II 防守左边的概率小于0.6，你该怎么做？
答案是，一直打左边........
（我最初看到这个结果蛮懵比的，后来想想，如果0.6是Eu1（L，Pii）和 Eu1（R，Pii）的分界，那么当大于或小于0.6时，两者就不相等了。显然是，大于0.6时， Eu1（R，Pii）＞Eu1（L，Pii)，所以为了最大化我们的利益，肯定是一直打右边啊........同理，小于0.6时，一直打左边。）

我们继续来思考另一个问题，如果 II 选手经过练习，改变了左边防守的收益，如图：

（黄色部分为改变收益的部分，原来为50；50）

那么，NE情况下q 如何变化？
对于这个重新改变的博弈，存在着对 q 的两种影响：
1）直接影响：练习正手接球，使得参与人 II 更自信面对，从而使得他更多增加防守左边的概率，也即 q 增大
2）战略影响：在参与人 II 练习之后，参与人 I 知道了这个状况，因此他便不再发到左边了，跟多发向右边。参与人 II 根据 I 的改变，自然更多防守右边了。从而使得q 减小

那么哪种影响主导了 II 的选择？即 q 值的变化呢？
我们重新计算这个新博弈的 q 值，30q + 80（1 - q）= 90q + 20（1 - q）
则，q = 0.5
可以发现，起到大多数影响的是2）。

（注：这个结论蛮让我震惊的。直接影响竟然小于战略影响，或者说对自身技术的提高，并不一定对结产生影响，博弈才是精髓。
但是，后来我考虑了一下，发现要论证这个结论是有条件的。那就是，充分知情。也就是决策人 I 对决策人 II 的变化充分知情。但是现实中，这很难保证。并且，这是在不断博弈后达到NE后的 q值，如果没有达到 NE之前的这段“漫长时间”，此时的q 的波动如何？这很难说。我猜，q 还是先升高，高出原来的q 值，然后随着了解不断下降。这时候技术的增长被适应了，当然战略因素体现出来了......而老师用这个论证博弈论比提升实力重要，有点那啥哈..... ）