机器之心专访腾讯「绝艺」团队负责人：用全新强化学习方法造就更强模型(2)_

刘永升：UEC 杯本来就是个学术和技术交流的平台，有世界各国一流围棋 AI 强手，我们是抱着和优秀同行进行学术切磋交流的心态来的，获胜了一方面很激动，一方面觉得也是很幸运。

机器之心：回忆起比赛的情形，有哪些印象深刻的片段？技术难点主要有哪些？

刘永升：（决赛）下到中盘一度非常紧张，能明显感觉到 DeepZenGo 的棋力和循环赛相比又有提升，是一位非常值得尊敬的对手，绝艺表现很出色。

机器之心：能否评价一下本次比赛的对手（特别是 DeepZenGo 与 CrazyStone）？

刘永升：过去几年，它们一直是围棋 AI 的王者，为围棋 AI 的发展做出了很大的贡献。过去一年，它们都成功把神经网络新技术应用到原来的系统中，大幅度提高了棋力，特别是 DeepZenGo，对职业棋手已经有非常高的胜率。职业棋手对其评价是非常不错的。

两天的比赛中我们绝艺和 DeepZenGo 交手两次，每次都非常胶着，前面 100 手都是难分难解。绝艺的中后盘相对而言会有一定优势，所以两次都笑到了最后。

机器之心专访腾讯「绝艺」团队负责人：用全新强化学习方法造就更强模型

机器之心：据了解，腾讯 AI Lab 的 13 人团队花近一年时间研发打造了绝艺，开发团队成员的背景是怎样的？有围棋高手吗？

刘永升：绝艺团队有 13 人，一半人做算法研究，一半人做算法实现。所有成员全部隶属腾讯 AI Lab，Lab 于 2016 年成立，专注与 AI 领域的基础科学研究和应用探索，目前有 50 余位世界知名学院的 AI 科学家（90% 为博士）、及 200 多位经验丰富的工程师。

负责「绝艺」的团队里，有喜欢围棋的，也有一开始对围棋一无所知。但指导团队的人里有一些高手，AI Lab 负责人姚星先生是业余 2-3 段，AI Lab 所属的 TEG 事业群总裁卢山先生是业余 5 段，我们还特别邀请了职业九段的罗冼河先生作为「绝艺」的专业陪练。更不用说，腾讯围棋上众多高手，可以毫不夸张，「绝艺」就是一个跟着棋手一起成长的围棋 AI。

「绝艺」背后的技术

机器之心：我们知道，在强化学习中，最优策略和最优价值函数都是全局最优解，而不是局部最优解。最优策略是在决定下一步应该下什么棋，后面会保证赢面最大。腾讯报道绝艺的新闻中出现的「微观」和「宏观」怎么解读？

刘永升：通俗的说，「策略」指每一步博弈时，各种选择的取舍，选好棋弃差棋，这是偏微观评估，也就是每一步的判断；而「价值」则指能看懂棋局，判断给定棋局是不是能赢，这是偏宏观的评估，也就是围棋里的大局观。

机器之心：Monte Carlo 搜索树是 AlphaGo 中的一项关键技术。绝艺中用到了吗？

刘永升：用到了。

机器之心：腾讯的另一篇报导中也提到「在绝艺的成长过程中，与人类棋手对弈是绝艺强大起来的重要原因，绝艺的突破性进展总是伴随其战胜某一实力水平的棋手出现。」我们知道，在 AlphaGo 中，人类棋手的棋谱帮助学习了快速走子策略（Rollout policy）和监督学习策略（SL policy）；后者做为学习强化学习策略（RL policy）这个非凸优化问题的初始值。初始值的设定可以帮助更快地学习到更好的策略；但是初始值并不决定最终学习到的策略的质量。绝艺的进步「得益于世界超一流棋手的指导」，这样的说法，请解释一下。

刘永升：绝艺研发过程中，如何评估棋力以及存在哪些问题是非常困难的。并且随着绝艺棋力提升，普通的棋手基本无法战胜的时候更难暴露其不足。所以，绝艺的研发过程中得益于世界超一流棋手的指导，非常难能可贵，对研发进度有非常大的帮助。

机器之心：AlphaGo 训练过程基本可以看成在解一个优化问题，自动完成，没有人工干预。腾讯关于绝艺的新闻，在强调世界超一流棋手的重要性；超一流棋手如何与优化问题结合？还是绝艺中有人工设计的规则？

刘永升：手工干预是过去式，绝艺是完全端到端的决策过程。世界超一流的棋手，主要是分析 AI 的棋局，得出当前存在的问题，从而分析系统深层的原因，最终确定修复点。

机器之心：绝艺这套系统设计思路是怎样的？相比去年 3 月战胜围棋大师李世石的 AlphaGo（AlphaGo 也是用的策略网络与价值网络），绝艺实现了哪些突破？

刘永升：「绝艺」的学习主要包括人类棋谱数据库和机器自对弈，它的算法基于策略网络与价值网络两大核心，并创新性地大幅提升了价值网络的精度，使其大局观表现更好。

关于绝艺的技术和数据库细节，我们将通过论文进一步公布，希望通过开放合作的研究，希望帮助和启发更多研究者，推动围棋 AI 发展。敬请期待。

「绝艺」背后，是深度学习和强化学习这两个机器学习十分热门的研究领域，它的总体框架遵循，是一个纯机器学习系统，但在实践中做了超出论文的创新。

举例来说，现代强化学习的核心，是用先进的机器学习算法作模拟器，生成高质量、实际有效的数据（experience replay）－这个过程在围棋 AI 中被称为自对弈。通过这个方法，可以让得学习到的模型不断通过强化生成的数据来自我提高。

在训练「绝艺」的机器学习模型过程中，我们探索了一些全新、而且非常有效的强化学习方法，能创造出更优质的自我模拟数据，从而导致了更强的模型。比如，和很多其他围棋 AI 相比，绝艺的对杀能力会更强。AI Lab 构造「绝艺」的经验，积累了一系列有效的方法，可以通过自我学习产生高质量的强化学习数据。这些方法可以应用在很多别的场景之中。

至于大家很关心的硬件系统，「绝艺」的线上系统有单机版和多机版：单机版测试过，差距和多机版没有大家想的那样大。而多机版所用的机器资源比 DeepMind 公开数据所透露的要少，所以绝艺不用靠资源取胜。

此外，在训练中绝艺利用了腾讯的云计算资源生成高质量数据，这些计算资源在行业内都可以通过腾讯云对外服务直接获取。

未来的研究方向

机器之心：腾讯在围棋人工智能技术上的研究（或者说强化学习技术）可以被借鉴到哪些实际生活的应用中？可以举例说明一下吗？

转载请注明出处。