社会焦点

机器之心专访腾讯「绝艺」团队负责人:用全新强化学习方法造就更强模型(2)

字号+ 作者: 来源: 2017-03-24

刘永升: UEC 杯本来就是个学术和技术交流的平台,有世界各国一流围棋 AI 强手,我们是抱着和优秀同行进行学术切磋交流的心态来的,获胜了一方面很激动,一方面觉得也是很幸运。 机器之心:回忆起比赛的情形,有哪

刘永升:UEC 杯本来就是个学术和技术交流的平台,有世界各国一流围棋 AI 强手,我们是抱着和优秀同行进行学术切磋交流的心态来的,获胜了一方面很激动,一方面觉得也是很幸运。

机器之心:回忆起比赛的情形,有哪些印象深刻的片段?技术难点主要有哪些?

刘永升:(决赛)下到中盘一度非常紧张,能明显感觉到 DeepZenGo 的棋力和循环赛相比又有提升,是一位非常值得尊敬的对手,绝艺表现很出色。

机器之心:能否评价一下本次比赛的对手(特别是 DeepZenGo 与 CrazyStone)?

刘永升:过去几年,它们一直是围棋 AI 的王者,为围棋 AI 的发展做出了很大的贡献。过去一年,它们都成功把神经网络新技术应用到原来的系统中,大幅度提高了棋力,特别是 DeepZenGo,对职业棋手已经有非常高的胜率。职业棋手对其评价是非常不错的。

两天的比赛中我们绝艺和 DeepZenGo 交手两次,每次都非常胶着,前面 100 手都是难分难解。绝艺的中后盘相对而言会有一定优势,所以两次都笑到了最后。

机器之心专访腾讯「绝艺」团队负责人:用全新强化学习方法造就更强模型

机器之心:据了解,腾讯 AI Lab 的 13 人团队花近一年时间研发打造了绝艺,开发团队成员的背景是怎样的?有围棋高手吗?

刘永升:绝艺团队有 13 人,一半人做算法研究,一半人做算法实现。所有成员全部隶属腾讯 AI Lab,Lab 于 2016 年成立,专注与 AI 领域的基础科学研究和应用探索,目前有 50 余位世界知名学院的 AI 科学家(90% 为博士)、及 200 多位经验丰富的工程师。

负责「绝艺」的团队里,有喜欢围棋的,也有一开始对围棋一无所知。但指导团队的人里有一些高手,AI Lab 负责人姚星先生是业余 2-3 段,AI Lab 所属的 TEG 事业群总裁卢山先生是业余 5 段,我们还特别邀请了职业九段的罗冼河先生作为「绝艺」的专业陪练。更不用说,腾讯围棋上众多高手,可以毫不夸张,「绝艺」就是一个跟着棋手一起成长的围棋 AI。

「绝艺」背后的技术

机器之心:我们知道,在强化学习中,最优策略和最优价值函数都是全局最优解,而不是局部最优解。最优策略是在决定下一步应该下什么棋,后面会保证赢面最大。腾讯报道绝艺的新闻中出现的「微观」和「宏观」怎么解读?

刘永升:通俗的说,「策略」指每一步博弈时,各种选择的取舍,选好棋弃差棋,这是偏微观评估,也就是每一步的判断;而「价值」则指能看懂棋局,判断给定棋局是不是能赢,这是偏宏观的评估,也就是围棋里的大局观。

机器之心:Monte Carlo 搜索树是 AlphaGo 中的一项关键技术。绝艺中用到了吗?

刘永升:用到了。

机器之心:腾讯的另一篇报导中也提到「在绝艺的成长过程中,与人类棋手对弈是绝艺强大起来的重要原因,绝艺的突破性进展总是伴随其战胜某一实力水平的棋手出现。」我们知道,在 AlphaGo 中,人类棋手的棋谱帮助学习了快速走子策略(Rollout policy)和监督学习策略(SL policy);后者做为学习强化学习策略(RL policy)这个非凸优化问题的初始值。初始值的设定可以帮助更快地学习到更好的策略;但是初始值并不决定最终学习到的策略的质量。绝艺的进步「得益于世界超一流棋手的指导」,这样的说法,请解释一下。

刘永升:绝艺研发过程中,如何评估棋力以及存在哪些问题是非常困难的。并且随着绝艺棋力提升,普通的棋手基本无法战胜的时候更难暴露其不足。所以,绝艺的研发过程中得益于世界超一流棋手的指导,非常难能可贵,对研发进度有非常大的帮助。

机器之心:AlphaGo 训练过程基本可以看成在解一个优化问题,自动完成,没有人工干预。腾讯关于绝艺的新闻,在强调世界超一流棋手的重要性;超一流棋手如何与优化问题结合?还是绝艺中有人工设计的规则?

刘永升:手工干预是过去式,绝艺是完全端到端的决策过程。世界超一流的棋手,主要是分析 AI 的棋局,得出当前存在的问题,从而分析系统深层的原因,最终确定修复点。

机器之心:绝艺这套系统设计思路是怎样的?相比去年 3 月战胜围棋大师李世石的 AlphaGo(AlphaGo 也是用的策略网络与价值网络),绝艺实现了哪些突破?

刘永升:「绝艺」的学习主要包括人类棋谱数据库和机器自对弈,它的算法基于策略网络与价值网络两大核心,并创新性地大幅提升了价值网络的精度,使其大局观表现更好。

关于绝艺的技术和数据库细节,我们将通过论文进一步公布,希望通过开放合作的研究,希望帮助和启发更多研究者,推动围棋 AI 发展。敬请期待。

「绝艺」背后,是深度学习和强化学习这两个机器学习十分热门的研究领域,它的总体框架遵循,是一个纯机器学习系统,但在实践中做了超出论文的创新。

举例来说,现代强化学习的核心,是用先进的机器学习算法作模拟器,生成高质量、实际有效的数据(experience replay)- 这个过程在围棋 AI 中被称为自对弈。通过这个方法,可以让得学习到的模型不断通过强化生成的数据来自我提高。

在训练「绝艺」的机器学习模型过程中,我们探索了一些全新、而且非常有效的强化学习方法,能创造出更优质的自我模拟数据,从而导致了更强的模型。比如,和很多其他围棋 AI 相比,绝艺的对杀能力会更强。AI Lab 构造「绝艺」的经验,积累了一系列有效的方法,可以通过自我学习产生高质量的强化学习数据。这些方法可以应用在很多别的场景之中。

至于大家很关心的硬件系统,「绝艺」的线上系统有单机版和多机版:单机版测试过,差距和多机版没有大家想的那样大。而多机版所用的机器资源比 DeepMind 公开数据所透露的要少,所以绝艺不用靠资源取胜。

此外,在训练中绝艺利用了腾讯的云计算资源生成高质量数据,这些计算资源在行业内都可以通过腾讯云对外服务直接获取。

未来的研究方向

机器之心:腾讯在围棋人工智能技术上的研究(或者说强化学习技术)可以被借鉴到哪些实际生活的应用中?可以举例说明一下吗?

转载请注明出处。


1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

相关文章