社会焦点

【AI研究者为什么喜欢游戏】DeepMind、Open AI和微软争相开源游戏训练平台(2)

字号+ 作者: 来源: 2017-05-14

OpenAI Universe, 根据其官方博客的介绍,这是一个能在几乎所有环境中衡量和训练 AI 通用智能水平的开源平台,当下的目标是让 AI 智能体能像人一样使用计算机。目前,Universe 已经有1000种训练环境,由微软、英伟

  OpenAI Universe, 根据其官方博客的介绍,这是一个能在几乎所有环境中衡量和训练 AI 通用智能水平的开源平台,当下的目标是让 AI 智能体能像人一样使用计算机。目前,Universe 已经有1000种训练环境,由微软、英伟达等公司参与建设。研究人员介绍说,Universe 从李飞飞等人创立的 ImageNet 上获得启发,希望把 ImageNet 在降低图像识别错误率上的成功经验引入到通用人工智能的研究上来,取得实质进展。

  DeepMind的启示:对神经网络来说,为数据中心降低能耗的任务与游戏无异

  不过,视频游戏对 AI 的作用并非只是作为现实世界的模拟。不同的游戏需要不同的技能这一事实有助于研究人员理解智能问题。2015年 DeepMind 发表了一篇论文,描述研究人员如何训练人工神经网络去玩 Atari 公司在70年代~80年代间发行的数十种不同的游戏。

  在这个研究里,有些游戏被证明相比其他游戏更难让神经网络掌握。“Breakout”是个有点像单人网球的游戏,这个对神经网络来说很简单。目标是通过用弹跳球去打击漂浮的积木组。玩家可以选的有两个动作:将“球拍”向左或向右移动。一旦失败,立即会受到惩罚(一旦失球,则输掉游戏)。类似地,如果成功会立即得到奖励(被打掉的每个积木会增加得分)。这种简单动作,而且即时得到反馈的组合适用于 DeepMind 的神经网络,该神经网络玩“Breakout”的成绩是专业人类玩家能达到的最好成绩的十倍以上。

  其他游戏就不那么简单了。在“蒙特祖玛的复仇”游戏中,目标是找到埋在充满危险机关的金字塔里的宝藏。要达到目标,玩家必须达成许多个次级的小目标,例如找到打开门的钥匙。这个游戏的反馈也不像“Breakout”那么即时,例如,在一个地方找到的钥匙可能能打开另一个地方的门。最终找到宝藏的奖励是之前的数千次动作的结果。这意味着网络很难将原因和结果联系起来。与“Breakout”游戏的突出表现相反,神经网络在“蒙特祖玛的复仇”游戏中几乎没有任何进展。

  后来,DeepMind 的研究人员调优了算法,通过给探索和实验提供更大的奖励,让系统对事物更加好奇。这使得神经网络更常去做那些虽然没有立即得到结果,但后来被证明是好的策略的动作。这种方法不局限于在虚拟世界中掌握技能——也可以应用于真实世界。例如,DeepMind 的算法已被用于 Google 的数据中心,得以将数据中心的能耗降低 40%。实际上,对神经网络来说,为数据中心降低能耗的任务与游戏无差,网络可以根据能耗情况来调整冷却液泵的设置和荷载分布。让能耗“得分”越低,它的表现就越好。

  神经网络灾难性遗忘的局限和解决办法:迁移学习

  重新利用一个玩游戏的程序去运行数据中心的能源预算,实际上就像重头开始教程序去玩一个新的游戏一样。那是因为 DeepMind 的原始神经网络只能一次玩一个游戏。例如,为了玩“Breakout”,必须要忘掉玩“Space Invaders”时学会的所有知识。这种遗忘是人工神经网络本身的性质,也是人工神经网络与真正的人类大脑相区别的性质。它们通过在全系统调整组成它们的虚拟神经元之间的连接的强度来学习。一旦改变了要学习的任务,旧的网络连接就会逐渐被重写。但是现在,正如 DeepMind 在3月份发表的一篇论文所描述的那样,DeepMind 的程序员已经解决了如何克服“遗忘”的问题,让网络就像真正的人类大脑一样,能一次掌握许多个游戏。这是迁移学习——在一个上下文中使用从另一个上下文学会的行为模式的能力——这是 AI 研究中的一个热门话题。

  就像好奇心和延迟奖励一样,将学习从一个任务转移到另一个任务是人类毫不费力就可以做到的,但机器却很难做到。再一次,游戏在这方面的研究起了重要的作用。例如,纽约大学的 Julian Togelius 组织了一个叫做“通用视频游戏AI大赛”的挑战赛,参赛者需要创建一个单一的程序,该程序要能玩10个不同的视频游戏,而且都是它之前没有遇到过的游戏。这需要软件能够掌握多种技能,例如计划,探索,决策等等,并将这些技能应用于以前从未遇过的问题。

  学习两项任务过程的示意图:使用EWC算法的深层神经网络能够学习玩一个游戏,然后转移它学到的玩一个全新的游戏。

  【AI研究者为什么喜欢游戏】DeepMind、Open AI和微软争相开源游戏训练平台

  论文摘要

  以顺序方式学习任务的能力对发展人工智能至关重要。直到现在,神经网络还不具备这种能力,业界也广泛认为灾难性遗忘是连接主义模型的必然特征。我们的工作表明,这个局限是可以克服的,我们能够训练网络,让它们将专业知识保留很长一段时间。我们的方法记住以往任务的方法是,选择性地减慢学习一些权重的速度,这些权重是对完成任务很重要的权重。通过识别手写数字数据集和学习一系列 Atari 2600 游戏,我们证明我们的方法是有效并且可扩展的。

  具身认知 :智能应该完全从经验中学习

  但即便掌握了迁移学习,构建可以用的人工智能仍然是一些零散的活动。研究人员真正希望得到的是如何系统地进行这些活动的一种基本的理论。这种理论的一个候选,被称为具身认知(embodied cognition)的理论认为,智能应该完全从经验中学习,而不是试图将智能从头开始设计到一个程序里。

  Hofman 博士尤其支持这种方法。她认为视频游戏是探索这种理论的一个完美平台。20世纪80年代进行的实验“具身认知”的尝试是将传感器装到机器人身上,让他们通过到处跑,到处磕磕碰碰来学习现实世界是如何运作的。当时的研究人员用这种方法取得了一些成果,但在扩大实验规模方面遇到了问题。正如 DeepMind 的研究员 David Silver 所说:“机器人有很多齿轮,轮子和电机,以及各种各样的器件,你最后不得不花很多时间做维修工作。”

  现实世界是最大的游戏场

  视频游戏可以简化这个过程。在虚拟世界里的虚拟机器人是没有重量的,也没有各种部件,因此不需要维护。要改变它的技术参数也不需要拆开它,敲几下键盘就可以了。

  它的环境也可以轻松改变。改变一个迷宫的格局不需要再重新焊接一遍金属片或者重新粘一遍塑料墙壁。一台计算机一次就可以运行数千个这样的模拟,让大量虚拟机器人一次又一次地尝试任务,每次尝试都是在学习。这是一种大规模的测试,而且允许学习过程被监视和理解,根本就不使用真实的机器。

转载请注明出处。


1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

相关文章