社会焦点

顶尖围棋选手很多,但顶尖围棋 AI 似乎只有一个

字号+ 作者: 来源: 2017-03-27

顶尖围棋选手很多,但顶尖围棋 AI 似乎只有一个,围棋世界冠军一览表,围棋业余5段棋手名单,女子围棋选手照片,alphago被踢出世界围棋排名

  3 月 23 日是首届世界围棋精英赛的最后一天,参赛的中日韩代表选手分别是芈昱廷、井山裕太和朴廷桓,3 位选手轮番对局 3 天,除了彼此要分出高下,还要分别对战日本的围棋程序 DeepZenGo。

  DeepZenGo 的开发者加藤英树在去年 12 月接受韩国《东亚日报》采访时曾信心满满地说:明年 3 月进行的世界围棋精英赛,DeepZenGo 有信心击败中韩日三国最强棋手。

  然而面对 3 位顶尖选手,DeepZenGo 最后的成绩是两败一胜,前两局被芈昱廷和朴廷桓绞杀,最后一回合执黑子中盘胜井山裕太,扳回一局。这次比赛虽有赢面,但是前有 Master 横扫高手的范例,DeepZenGo 胜 1 输 2 的表现并不太出色。

  

顶尖围棋选手很多,但顶尖围棋 AI 似乎只有一个

  ▲ DeepZenGo 对战中国选手芈昱廷。

  虽然之前有 AlphaGo 战胜李世乭的先例,但 AlphaGo 无法代表围棋 AI 的普遍水准,DeepZenGo 的开发者加藤英树在前两轮落败后都表示遗憾,但其实结果并没有出乎大家的意料──19 日在东京落幕的第十届 UEC 杯世界电脑围棋赛中,DeepZenGo 就不敌腾讯研发的“绝艺”,曾经称霸 UEC 的黑马这次失去了冠军。

  去年 3 月,DeepMind 的 AlphaGo 以 4 比 1 的成绩战胜韩国围棋九段李世乭,这是人工智能首次在围棋领域战胜人类高手,引起全世界空前关注。但这之前,机器在围棋领域的学习已超过 10 年,从 2007 年第一届 UEC 杯开始,研发团队就不断发掘电脑程序在围棋项目上的潜力,DeepZenGo 的前身 Zen 就是其中一个。

  2006 年日本游戏工程师尾岛阳儿开始研究围棋演算法,写出最初始的 Zen。到了 2009 年,蒙地卡罗方法(Monte Carlo method)开始大面积引入围棋程序,成为了机器下棋的主流演算法,也帮助 Zen 拿到第一个国际大赛冠军。

  棋类游戏有一种最初始的算法叫穷举法,穷尽所有可能进行列举──在下棋时把所有会出现的情况都跑一遍,总能找到一个最优解法,不管是五子棋、象棋或西洋棋。穷举法给电脑带来的优势很明显,早在 1997 年 IBM“深蓝”就用穷举法战胜了西洋棋世界冠军卡斯帕洛夫。

  但对围棋来说,最大的魅力正在于简洁的规则下,无穷尽的策略带来无穷尽的变化。这样情况下,依靠低效暴力的列举无法抵过一个专业棋手的经验和判断。蒙地卡罗方法的引入便是为穷举增加一些随机性,缩小需要列举的范围,在随机范围内寻求最优解即可,相当于在一片果园中找到最大的苹果,比起原来一棵树一棵树找,变成只挑一块区域取样找;最后找到的不一定是最大的,但一定是所选范围内最大的。

  虽然对穷尽所有列举有一定的最佳化,但蒙地卡罗方法本质还是并不高明的列举,这样算法只能在一定程度上最佳化,但无法带来突破性变化。所以只靠蒙地卡罗方法导致许多围棋程序陷入瓶颈,包括 Zen、法国的“疯石”、韩国的“石子旋风”,许多算法都无法匹敌高段位的专业围棋选手。

  AlphaGo 的胜利像在围棋演算法这滩死水丢入一条大鱼,让围观群众错愕同时,重新活络了同行的热情。比赛一个月后,DeepMind 便在《自然》杂志发布论文,公开 Alpha Go 革命性胜利的一小部分秘密:深度卷积神经网络的引入。

  

顶尖围棋选手很多,但顶尖围棋 AI 似乎只有一个

  ▲ AlphaGo 每走一步棋,会列举 250 步潜在可能。

  AlphaGo 在蒙地卡罗演算法的基础上构建两道神经网络:一道是策略网络,负责评估棋局;一道是价值网络,判断应在哪落子。这对传统围棋算法最大的价值在于节省蒙地卡罗方法的搜索空间。再用找大苹果举例,就是会先根据经验判断该找一块阳光好的地方,再判断哪块阳光好,找到大苹果的机率更大。

  神经网络缩短了机器演算法和专业选手间的差距,也为围棋算法最佳化提供新思路,包括加藤英树等许多开发者都在 Google 发布论文后,把深度学习引入围棋演算法。Zen 在经过深度学习升级后,也改名为今天的 DeepZenGo。

  但 Google 论文中公布的资讯仍然只是 AlphaGo 的冰山一角。尽管用同样基础架构,但 DeepZenGo 距离 AlphaGo 仍有很大差距。首先是硬件不在同一水平──AlphaGo 拥有 1,920 个 CPU、280 个 GPU,最新的 DeepZen 14.0 版本配备是 44 个 CPU、4 个 GPU,这差距相当于 AlphaGo 坐着火箭起飞时 DeepZenGo 还在骑单车。

  其次是演算法的差距。AlphaGo 只用一份教材,但各家学习方法不同导致学习效果不同。AlphaGo 虽然研发时间不如 DeepZenGo 长,但深度学习上 Google 已有 7 年经验,DeepZen 即便引入神经网络,模型训练的时间和量都远远不及 AlphaGo。

  无法对抗 AlphaGo 的 DeepZenGo 在众多围棋电脑中已是数一数二了,如果不是“绝艺”横空出世,它仍会是这次 UEC 杯第一名。但如果连 DeepZenGo 也很难跟上 AlphaGo 的脚步,那身后更多 AI 小选手只能面临淘汰。

  如同任一种尖端技术,并非所有人都能跟随“潮流”而获利,除了几位掌握核心技术的佼佼者能推动浪潮,更多追随者面临的还是被浪潮吞没。有传闻说这届的 UEC 杯就是最后一届比赛了,大概也是因为这样的竞争没多少意义了。

  小玩家被淘汰,大玩家会继续竞争吗?也不见得,据说 AlphaGo 会在今年 4 月再和号称目前最强的中国选手柯洁对战,赢了便会结束征战围棋界,享受无敌的寂寞,然后将精力放在其他技术上,比如去年 11 月开始在电脑游戏《星海争霸》的尝试。最后,游戏公司出身的 DeepZenGo,可能还是会先保住平民级游戏战场,和群众打成一片,这未尝不是一条好出路。

转载请注明出处。


1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

相关文章