顶尖围棋选手很多，但顶尖围棋 AI 似乎只有一个_

　　3 月 23 日是首届世界围棋精英赛的最后一天，参赛的中日韩代表选手分别是芈昱廷、井山裕太和朴廷桓，3 位选手轮番对局 3 天，除了彼此要分出高下，还要分别对战日本的围棋程序 DeepZenGo。

　　DeepZenGo 的开发者加藤英树在去年 12 月接受韩国《东亚日报》采访时曾信心满满地说：明年 3 月进行的世界围棋精英赛，DeepZenGo 有信心击败中韩日三国最强棋手。

　　然而面对 3 位顶尖选手，DeepZenGo 最后的成绩是两败一胜，前两局被芈昱廷和朴廷桓绞杀，最后一回合执黑子中盘胜井山裕太，扳回一局。这次比赛虽有赢面，但是前有 Master 横扫高手的范例，DeepZenGo 胜 1 输 2 的表现并不太出色。

顶尖围棋选手很多，但顶尖围棋 AI 似乎只有一个

　　▲ DeepZenGo 对战中国选手芈昱廷。

　　虽然之前有 AlphaGo 战胜李世乭的先例，但 AlphaGo 无法代表围棋 AI 的普遍水准，DeepZenGo 的开发者加藤英树在前两轮落败后都表示遗憾，但其实结果并没有出乎大家的意料──19 日在东京落幕的第十届 UEC 杯世界电脑围棋赛中，DeepZenGo 就不敌腾讯研发的“绝艺”，曾经称霸 UEC 的黑马这次失去了冠军。

　　去年 3 月，DeepMind 的 AlphaGo 以 4 比 1 的成绩战胜韩国围棋九段李世乭，这是人工智能首次在围棋领域战胜人类高手，引起全世界空前关注。但这之前，机器在围棋领域的学习已超过 10 年，从 2007 年第一届 UEC 杯开始，研发团队就不断发掘电脑程序在围棋项目上的潜力，DeepZenGo 的前身 Zen 就是其中一个。

　　2006 年日本游戏工程师尾岛阳儿开始研究围棋演算法，写出最初始的 Zen。到了 2009 年，蒙地卡罗方法（Monte Carlo method）开始大面积引入围棋程序，成为了机器下棋的主流演算法，也帮助 Zen 拿到第一个国际大赛冠军。

　　棋类游戏有一种最初始的算法叫穷举法，穷尽所有可能进行列举──在下棋时把所有会出现的情况都跑一遍，总能找到一个最优解法，不管是五子棋、象棋或西洋棋。穷举法给电脑带来的优势很明显，早在 1997 年 IBM“深蓝”就用穷举法战胜了西洋棋世界冠军卡斯帕洛夫。

　　但对围棋来说，最大的魅力正在于简洁的规则下，无穷尽的策略带来无穷尽的变化。这样情况下，依靠低效暴力的列举无法抵过一个专业棋手的经验和判断。蒙地卡罗方法的引入便是为穷举增加一些随机性，缩小需要列举的范围，在随机范围内寻求最优解即可，相当于在一片果园中找到最大的苹果，比起原来一棵树一棵树找，变成只挑一块区域取样找；最后找到的不一定是最大的，但一定是所选范围内最大的。

　　虽然对穷尽所有列举有一定的最佳化，但蒙地卡罗方法本质还是并不高明的列举，这样算法只能在一定程度上最佳化，但无法带来突破性变化。所以只靠蒙地卡罗方法导致许多围棋程序陷入瓶颈，包括 Zen、法国的“疯石”、韩国的“石子旋风”，许多算法都无法匹敌高段位的专业围棋选手。

　　AlphaGo 的胜利像在围棋演算法这滩死水丢入一条大鱼，让围观群众错愕同时，重新活络了同行的热情。比赛一个月后，DeepMind 便在《自然》杂志发布论文，公开 Alpha Go 革命性胜利的一小部分秘密：深度卷积神经网络的引入。

顶尖围棋选手很多，但顶尖围棋 AI 似乎只有一个

　　▲ AlphaGo 每走一步棋，会列举 250 步潜在可能。

　　AlphaGo 在蒙地卡罗演算法的基础上构建两道神经网络：一道是策略网络，负责评估棋局；一道是价值网络，判断应在哪落子。这对传统围棋算法最大的价值在于节省蒙地卡罗方法的搜索空间。再用找大苹果举例，就是会先根据经验判断该找一块阳光好的地方，再判断哪块阳光好，找到大苹果的机率更大。

　　神经网络缩短了机器演算法和专业选手间的差距，也为围棋算法最佳化提供新思路，包括加藤英树等许多开发者都在 Google 发布论文后，把深度学习引入围棋演算法。Zen 在经过深度学习升级后，也改名为今天的 DeepZenGo。

　　但 Google 论文中公布的资讯仍然只是 AlphaGo 的冰山一角。尽管用同样基础架构，但 DeepZenGo 距离 AlphaGo 仍有很大差距。首先是硬件不在同一水平──AlphaGo 拥有 1,920 个 CPU、280 个 GPU，最新的 DeepZen 14.0 版本配备是 44 个 CPU、4 个 GPU，这差距相当于 AlphaGo 坐着火箭起飞时 DeepZenGo 还在骑单车。

　　其次是演算法的差距。AlphaGo 只用一份教材，但各家学习方法不同导致学习效果不同。AlphaGo 虽然研发时间不如 DeepZenGo 长，但深度学习上 Google 已有 7 年经验，DeepZen 即便引入神经网络，模型训练的时间和量都远远不及 AlphaGo。

　　无法对抗 AlphaGo 的 DeepZenGo 在众多围棋电脑中已是数一数二了，如果不是“绝艺”横空出世，它仍会是这次 UEC 杯第一名。但如果连 DeepZenGo 也很难跟上 AlphaGo 的脚步，那身后更多 AI 小选手只能面临淘汰。

　　如同任一种尖端技术，并非所有人都能跟随“潮流”而获利，除了几位掌握核心技术的佼佼者能推动浪潮，更多追随者面临的还是被浪潮吞没。有传闻说这届的 UEC 杯就是最后一届比赛了，大概也是因为这样的竞争没多少意义了。

　　小玩家被淘汰，大玩家会继续竞争吗？也不见得，据说 AlphaGo 会在今年 4 月再和号称目前最强的中国选手柯洁对战，赢了便会结束征战围棋界，享受无敌的寂寞，然后将精力放在其他技术上，比如去年 11 月开始在电脑游戏《星海争霸》的尝试。最后，游戏公司出身的 DeepZenGo，可能还是会先保住平民级游戏战场，和群众打成一片，这未尝不是一条好出路。

转载请注明出处。