论文摘要:博弈论又被称为对策论(Game Theory),它是现代数学的一个新分支,也是运筹学的一个重要组成内容。博弈论是二人在平等的对局中各自利用对方的策略变换自己的对抗策略,达到取胜 的意义。本文主要介绍博弈论与连珠对局过程的关联性问题,以及从成熟的理论模型中得到的启示。
关键词:博弈,策略,均衡
一、概述
随着连珠棋种日益普及,竞技水平的不断提高,越来越有利用现有的成熟理论去解释连珠竞技过程的必要,并完善连珠棋自身的理论体系。在爱五子棋论坛上看到了 很多学术类文章,一般偏重于具体变化的探讨,棋种规则本身的平衡性问题(看到一篇数学角度的论述)以及文学与社会学(人文)角度看待竞技过程。本文从经济 学角度出发,论述博弈论与连珠对弈行为的关系,探讨在对抗中采取各种组合策略的理论依据。
二、博弈论模型阐释连珠对弈行为
(一)博弈要素的界定
1.决策人:在博弈中率先作出决策的一方,这一方往往依据自身的感受、经验和表面状态优先采取一种有方向性的行动。指连珠对弈中指假先方。
2.对抗者:在博弈二人对局中行动滞后的那个人,与决策人要作出基本反面的决定,并且他的动作是滞后的、默认的、被动的,但最终占优。他的策略可能依赖于决策人劣势的策略选择,占去空间特性,因此对抗是唯一占优的方式,实为领导人的阶段性终结行为。指连珠对弈中的假后方。
3.生物亲序:所有生物在恶劣、未知的环境中都有寻找规律和有序的本能。在博弈中指参与者有从混乱的环境中等待、寻找有序的亲近行为。指连珠对弈中的中盘的比拼过程。
4.局中人(players):在一场竞赛或博弈中,每一个有决策权的参与者成为一个局中人。只有两个局中人的博弈现象称为“两人博弈”,而多于两个局中人的博弈称为 “多人博弈”。 指对局双方
5.策略(strategiges):一局博弈中,每个局中人都有选择实际可行的完整的行动方案,即方案不是某 阶段的行动方案,而是指导整个行动的一个方案,一个局中人的一个可行的自始至终全局筹划的一个行动方案,称为这个局中人的一个策略。如果在一个博弈中局中 人都总共有有限个策略,则称为“有限博弈”,否则称为“无限博弈”。 指比赛中变化的运用与针对性的行棋过程
6.得失(payoffs):一局博弈结局时的结果称为得失。每个局中人在一局博弈结束时的得失,不仅与该局中人自身所选择的策略有关,而且与全局中人所取定的一组策略有关。 指比赛结果
(二)对局双方互不了解下的对弈分析过程
在比赛过程中,比赛前参与人已经制订好这一盘使用的变化(策略)或者根本不准备两种情况,两种情况都不可能出现对局期间更改自己的策略选择的情况。所以可 以将连珠竞技过程理解为一个“均衡”博弈过程。(注:均衡是平衡的意思,在经济学中,均衡意即相关量处于稳定值。)这样,只需要讨论对局双方互相了解和互 不了解两种信息状态即可。
先讨论 对局双方对对手的信息都不甚了解的状况,这意味着对信息不完全了解状态,而且后手方并不清楚先手方的行为策略,所以此种情况下,双方处在一种不完全信息下 的动态博弈过程。在动态博弈中,参与人为了使得其他参与人的选择对自己有利,往往采取一些行动来影响其他参与人对于自己行为的预期。这些行为称为战略行动 (strategic move)。在动态博弈中,行动有先后次序,后行动者(后手方)可以通过观察先行动者(先手方)的行为,来获得有关先行动者的信息,从而证实或修正自己对 先行动者的判断。
如上所述,在不完全信息条件下,博弈的参与人知道其他参与人可能有哪几种类型,也知道不同的类型与相应战略选择之间的关系。但他们并不知道其他参与人的真 实类型。在不完全信息动态博弈中,博弈开始时,某一参与人既不知道其他参与人的真实类型,也不知道其他参与人所属类型的分布概率。他只是对这一概率分布有 自己的主观判断,即有自己的信念。博弈开始后,该参与人将根据他所观察到的其他参与人的行为,来修正自己的信念。并根据这种不断变化的信念,作出自己的战 略选择。此法则是概率统计中的应用所观察到的现象对有关概率分布的主观判断(即先验概率)进行修正的标准方法。
对于连珠对弈的数学模型分析如下:
后手方B不知道先手方A是属于先手攻击类型棋手还是先手控盘类型棋手,但B知道,如果A属于攻击类型,B防守后A进行进攻的概率是100%(此时A为了保 持先手带来的盘面优势,不计成本地拼命进攻);如果A属于先手控盘类型,B防守后A进行阻挠的概率是20%。
博弈开始时,B认为A属于先手攻击类型棋手的概率为70%,因此,B估计自己在防守时,受到A进攻的概率为:
0.7×1.0+0.3×0.2=0.76
0.76是在B给定A所属类型的先验概率下,A可能采取进攻行为的概率。
当B进入防守时,A确实进行进攻行为。使用贝叶斯法则,根据进攻这一可以观察到的行为,B认为A属于先手攻击类型棋手的概率变成:
A属于先手攻击类型棋手的概率=0.7(A属于先手攻击类型棋手的先验概率)×1(先手攻击类型棋手对新进入防守的B进行进攻行为的概率)÷0.76=0.92
根据这一新的概率,B估计自己在进入防守时,受到A进攻的概率为:
0.92×1+0.08×0.2=0.936
这样,B在这一盘对局中根据A的进攻行为,B对A所属类型的判断逐步确认,越来越倾向于将A判断为先手攻击类型棋手(概率的提高)
以上例子表明,在不完全信息动态博弈中,参与人所采取的行为具有传递信息的作用。尽管A棋手有可能是先手控盘型棋手,但A棋手连续进行的先手情况下的进攻行为,给B棋手以A企业是先手攻击类型棋手的印象,从而使得B棋手有针对性的采取行动。
(三)双方相互了解下的对弈过程
随着A,B双方对局次数的增多,以上过程逐步转化为博弈过程为完全信息状态下的动态博弈。即博弈中信息是完全的,双方都掌握对对手的战略空间和战略组合有 完全的了解,但行动是有先后顺序的,后动者可以观察到前者的行动,了解前者行动的所有信息。 在连珠对弈过程中,并不存在任何的不会信守的许诺或威胁状况的发生,这样运用一般子博弈逆推归纳法(分析动态博弈的方法是从最后一个阶段参与人的行为开始分析,逐步倒退回前一个阶段相应参与人的行为选择,一直到第一阶段的方法)进行分析。模型如下:
当B在第一阶段选择开寒星的结果分析为(1,0)[A交换的概率近似为1],而当开瑞星时,A有两种选择,交换或者不换,在完全信息状态下,根据B的类型,选择交换好于不换(2>1)。逆推归纳法下,因为B明白A最终的选择为平衡局和大优局都会交换,权衡分析下B将选择开出瑞星。需要注意的是,虽然开寒星这一分支状况没有发生,但因为这子博弈分析结论的存在,致使B选择开瑞星。所以策略组合的分析中,这一分支要考虑的。
三、启示
从以上论述可知,第一次对弈的双方处在互不了解状态下,可以通过当时的比赛对局或者比赛前交流对局时的行为,言谈等观察判断出棋手的类型,从而采取对应策 略。随着此棋手比赛参与次数的增多,信息越来越公开化,在双方实力均等情况下,对局最终结果取决于双方赛前的策略组合。由于比赛博弈过程中,始终存在一种 无形的概率变化计算过程,这表明比赛本身必然存在的所谓“运气”成分。双方的策略组合的目的,就是如何使这种“运气”接近自己的期望值的过程。
(转载自仇云飞的博客,作者系北京五段棋手)




