首页 > 社会焦点 > 正文

现场报道 | 让天下三子,DeepMind官方解读新版AlphaGo强大实力

2017-05-25 编辑:

机器之心原创

记者:杜夏德

参与:李泽南、吴攀

  5 月 23 日,乌镇围棋峰会第一场人机大战以柯洁落败而结束,DeepMind 和谷歌在今天的人工智能高峰论坛中详细回顾了昨天的比赛,并解读了 AlphaGo 背后的强大实力。

第一天比赛结束,DeepMind 创始人 Hassabis 表示,比赛进入了数子阶段,AlphaGo 的优势很小,柯洁完成了一场伟大的比赛。竭尽全力的柯洁表示,此次大赛之后不但不会再与机器交战,也不会利用机器来练习,他「更喜欢与人类棋手下棋,这样自己还有赢的可能。」

比赛之后,DeepMind 在官方网站上发布了一篇对这场比赛的分析解读,机器之心对这篇文章的内容进行了编译介绍。同时,我们还整合了机器之心前方记者发回的一线报道,让我们可以一窥 AlphaGo「让天下三子」的棋力及其背后的技术。

第一局比赛官方回顾

现场报道 | 让天下三子,DeepMind官方解读新版AlphaGo强大实力

柯洁与 AlphaGo 在围棋峰会上的第一场比赛跌宕起伏,黑棋和白棋都展现了细致入微的精细布局。经过多次局部交锋与创新的变化,AlphaGo 执白坚持到了最后,以 0.5 点(1/4 子)的微小优势获胜。

在开局阶段,柯洁使用了大胆的策略率先发起了攻势,他采用了以往 AlphaGo 最喜欢的举动——点三三。这种策略在 20 世纪 30 年代由围棋界的传奇吴清源与木谷实引入棋坛,并在棋坛流行多年,但在当代棋坛销声匿迹。然而,随着 AlphaGo 的出现,最近柯洁等顶级棋手已经开始尝试在正式比赛中将这一方法复兴了。在柯洁走出点三三后,AlphaGo 以它最喜欢的二间拆应对,柯洁向前延伸,完成了侵入。此前,随着 AlphaGo 在以 Master 名义进行 60 盘网上对局的比赛中,这样的变化正逐渐流行起来。

  现场报道 | 让天下三子,DeepMind官方解读新版AlphaGo强大实力

  柯洁和 Demis Hassabis 在比赛之前握手

跟着就是一个罕见的三三打入定式,然后 AlphaGo 落下了非常新颖的一子:它没有直接以扭的方式打吃或使用常见的飞,而是在第 24 手使用了大飞扩展了范围。樊麾相信 AlphaGo 此举体现了它自己的哲学:「AlphaGo 的方式并不是在这里那里争夺棋盘局部的空间,而是把每颗棋子都放在对大局最有意义的位置上。这是真正的围棋理论:并不是『我想要得到什么』,而是『我该怎样让每颗棋子都发挥出其最大的潜力』。」

之后,两位棋手在左上角进行了一场激动人心的交换,柯洁在这个过程中表现出色。放弃托角而取得边,黑棋在一场交换中吃掉了四颗白子,而 AlphaGo 评估认为这对双方来说都是理想的结果。柯洁真不愧是世界第一!通过在第 49 手使用的方法,黑棋在下盘威胁到了白棋的厚势,但白棋在第 50 手和 54 手时通过刺和断转变了方向。这些走法的目标并不是直接的跟随,而是在精妙地最大化其在这一区域的实力和未来的主动权。尽管 AlphaGo 更偏爱单关跳来强化其中心实力,柯洁在第 51 手对四颗白子进行了包围,维持了对局部的控制。在第 55 手,一着聪明的试应手让黑棋通过左底部边角来交换更下面的边,柯洁的这一步选择为棋局的未来进展设定了方向。在黑棋在边角存活下来之后,却给了白棋一道外围的铜墙铁壁,柯洁果断地放弃了他在更下面边的棋子,以在上部分获得更强的优势和主动权。

随后,在所占的实地落后的情况下,柯洁被迫充分利用上边,从而在第 97 手下出了雄心勃勃的大跳(这或许是胜负手)。AlphaGo 在第 98 手的反应又迫使柯洁在第 99 手截断这单颗白棋,这一决定性的变化开启了这局比赛的最后一次大范围交换。在收官阶段,柯洁奋力追赶,而 AlphaGo 则保持适当但安全的领先,最终以四分之一子的优势获胜。

DeepMind 希望我们在这场比赛中看到的创新能够成为围棋更多创新的开始,并期待全世界的棋手们都能分析这些下法,并在未来的对弈中尝试它们。

「让天下三子」的棋力和技术

比赛之后,David Silver、谷歌大脑负责人 Jeff Dean 等人在乌镇围棋峰会现场对 AlphaGo 背后的技术进行了解读,以下是机器之心对相关内容的整理解读。

  现场报道 | 让天下三子,DeepMind官方解读新版AlphaGo强大实力

机器之心已经多次报道过了 AlphaGo 的基础技术,可参阅机器之心昨天的报道《柯洁 1/4 子惜败,机器之心独家对话 AlphaGo 开发者导师 Martin Müller》。AlphaGo 结合了监督学习与强化学习的优势。通过训练形成一个策略网络,将棋盘上的局势作为输入信息,并对有所可行的落子位置形成一个概率分布。然后,训练一个价值网络对自我对弈进行预测,以-1(对手的绝对胜利)到 1(AlphaGo 的绝对胜利)的标准,预测所有可行落子位置的结果。

  现场报道 | 让天下三子,DeepMind官方解读新版AlphaGo强大实力

围棋的分支系数非常大:每一颗棋子可能的走法数量超过了整个宇宙的原子数量,而且不像国际象棋,它无法用穷举搜索的方法来得到结果。

  现场报道 | 让天下三子,DeepMind官方解读新版AlphaGo强大实力

为了减少搜索的宽度,AlphaGo 会根据策略网络(policy network)探索哪个位置同时具备高潜在价值和高可能性,进而决定最佳落子位置。

  现场报道 | 让天下三子,DeepMind官方解读新版AlphaGo强大实力

而为了减少搜索的深度,AlphaGo 使用了价值网络来进行评估。虽然 AlphaGo 的价值网络不能准确地计算出影响的数值,但它的价值网络能够在一定深度上一次性考虑棋盘上的所有棋子,以微妙和精确的方式做出判断。正是这样的能力让 AlphaGo 把自己在局部的优势转化为整个比赛的胜势。

  现场报道 | 让天下三子,DeepMind官方解读新版AlphaGo强大实力

AlphaGo 将这两种网络整合进基于概率的蒙特卡罗树搜索(MCTS)中,实现了它真正的优势。


大家都爱看
案例 | 抑郁症、精神分裂,初中生家境优渥,父母为何不让吃药案例 | 抑郁症、精神分裂,初中生家境优渥,父母为何不让吃药 实录 |12名女大学生被侵犯,色魔竟然是个老乞丐实录 |12名女大学生被侵犯,色魔竟然是个老乞丐
查看更多热点新闻