为什么科学家如此热衷于研发棋牌类AI？_

新智元推荐

来源：微软研究院AI头条

　　【新智元导读】本文介绍了科学家爱终于研发棋牌类AI的原因，把常见的游戏AI分为“完全信息类”和“非完全信息类”，并且针对其难度打分，最难的竟是“星际争霸”和“我的世界”！

　　为什么在人工智能领域，科学家总是热衷于让AI跟人类下棋，玩游戏？从简单的跳棋、五子棋，到更加复杂的中国象棋、国际象棋，以及最近非常热门的围棋和德州扑克。每次AI在某个智力游戏上成功地击败人类选手，便会让大家唏嘘不已，慨叹AI会在不久的将来取代人类…

　　幸运的是，AI接手地球还并未发生。我们不仅不需要如此杞人忧天，而且还会欣喜地发现人工智能的技术进步给生活带来了更多便利。一个会下棋的AI也并非科学家的终极目标，其更积极的意义在于，AI算法在研究棋艺的过程中不断精进和提升，会带来更多设计上的创新，从而在根本上提升人工智能算法的能力和适用范围。

　　而科学家之所以乐于选择棋类游戏，一方面是因为它们自古以来就被认为是人类智力活动的象征，模拟人类活动的AI自然要以此为目标。成功达到人类甚至高于人类水平，可以吸引更多人关注并投身于人工智能的研究和应用中来。

　　另一方面，棋类也很适合作为新的AI算法的标杆（Benchmark）。棋类游戏的规则简洁明了，输赢都在盘面，适合计算机来求解。理论上只要在计算能力和算法上有新的突破，任何新的棋类游戏都有可能得到攻克。

　　除了棋类游戏，牌类游戏（比如德州扑克、桥牌、麻将、斗地主等）也逐渐成为人工智能研究的新方向。而在更加大型的电子游戏方面，比如星际争霸、我的世界(Minecraft)，科学家也开始了新一轮的AI算法的创新。这些不同的游戏在研究人员的眼里究竟有什么区别？这些研究成果对我们的生活又有什么意义呢？下面我们就为大家扒一扒这两个问题。

　　棋牌类AI家族

　　了解棋牌类AI，我们可以先从它的分类讲起。这一家族按照牌面“坦诚”度的不同，可以分为两支脉络：一支擅长“打开天窗说亮话”，另一支则是“猜测推理”的智能高手。

　　国际象棋、围棋等盘面信息都是公开的，对弈双方接收到的信息完全相同，因此也被称为“完全信息类”的AI博弈；而德州扑克、桥牌、麻将等游戏，每个人无法看到对手手里的牌，所以称之为“非完全信息类”的AI博弈。

　　为什么科学家如此热衷于研发棋牌类AI？

　　完全信息类——看得到我就算得出

　　顾名思义，即棋面信息大家都可看到，博弈双方接收到的信息是完全对等的，如国际象棋和围棋。此类博弈中，AI每次只需要根据当前盘面，搜索计算以后各种情况下自己的胜率。为了提高搜索效率，一般需要对搜索过程中产生的“博弈树”进行广度和深度剪枝。就是我们平常下棋时常说的算多远和算多准。为了算得远，我们一般需要让AI少看对手和自己不太可能走的地方，称之为策略函数。为了算的准，我们需要更加准确地评估多步后的盘面自己的胜率，称之为价值函数。找到了合适的函数，再加上计算机的强大计算力，让AI达到或超过人类成为可能。在博弈树和策略价值函数的选择上，“完全信息类”棋类AI算法经历了从“AlphaBeta剪枝算法”、“蒙特卡洛树搜索”到“深层神经网络”的迭代更新，功能也不断“进化”。

跳棋、五子棋 | 难度指数★

　　跳棋和五子棋的空间复杂度较低。甚至在不需要对博弈树剪枝的情况下，计算机凭借强大的计算能力便可以计算所有盘面的可能。所以在这种相对简单的棋类游戏中，人类已经不存在战胜AI的可能。

中国象棋、国际象棋 | 难度指数★★★

　　象棋的空间复杂度较高，暴力求解的方法并不可行。但是相对而言容易找到适合的价值函数。以国际象棋为例，可以根据棋盘上残留棋子的类型和位置给出一个大致的评分。比如，棋盘上如还有皇后加10分，有车加5分，有马加3分，以此为基础计算函数。为了提高效率，国际象棋还有巨大的开局和终局数据库来保证残局计算的准确度。依靠这些规则，1997年“深蓝”第一次战胜了人类国际象棋冠军。其后，电脑象棋程序甚至可以在PC上运行并击败顶级人类选手。

围棋 | 难度指数 ★★★★

　　围棋的空间复杂度高，据估计围棋的决策点大概有10的170次方之多。找到合适的策略和价值函数一直是围棋AI的核心问题。蒙特卡洛树搜索算法用概率的方法帮助围棋AI找到了一个较为准确的价值函数，并帮助程序达到了业余高段的水平。而借助深度神经网络，研究员寻找到了更好的策略和价值函数的计算方法。通过增强学习，AI还可以无限模拟各种对弈情境，生成上亿数据，用来训练生成更准确的函数。集大成的 “AlphaGo”在2016年以4：1历史性战胜了世界顶级围棋棋手李世石。而正在进行的AlphaGo新版本与柯洁之战，不知道又给我们带来何种新算法和启示。

　　非完全信息类——三缺一也不怕了吗

　　在博弈过程中，如果双方得到的信息是不完全、不对等的，需要通过猜测对方底牌计算概率，就属于非完全信息类，如德州扑克、桥牌、麻将等。

　　非完全信息博弈要求更为复杂的推理能力，不仅要看别人打了什么牌，还要猜测别人手里有什么牌，并根据对手行动暗示出的信息，来计算自己的最优出牌出法。由于对手的行为不仅暗示他的信息，也取决于他对我们的私人信息有多少了解，我们的行为透露了多少信息。所以，这种“循环推理”，导致一个人很难孤立地推理出游戏的状态。

　　现代博弈理论创建者、计算机先锋冯·诺依曼有句名言，用来形容非完全信息类对弈再合适不过：“现实世界有很多假象、骗术，需要你去思考别人对你的策略到底看穿了多少。这就是我提出的理论所涉及的博弈。”

　　为什么科学家如此热衷于研发棋牌类AI？

德州扑克 | 难度指数 ★★★★

　　德州扑克的搜索复杂度是10的160次方，和国际围棋接近。博弈中主要采用“纳什均衡”原理——在一个特定时刻，寻找相对于其他参与人的最优反应。与围棋相比，扑克不仅要根据不完全信息进行复杂决策，还要应付对手的虚张声势、故意示弱等招数。去年年底，来自阿尔伯塔大学、查尔斯大学和布拉格捷克理工大学的计算机科学家开发的 DeepStack在二人无限注德州扑克中打败了人类职业玩家；今年年初，卡内基?梅隆大学所开发的 Libratus 又击败了四个更加优秀的职业选手，这是AI 在不完全信息博弈中堪称里程碑式的突破。对于人工智能而言，下一个挑战是征服多人扑克。

麻将 | 难度指数 ★★★

转载请注明出处。