社会焦点

学界 | 伯克利与OpenAI整合强化学习与GAN:让智能体学习自动发现目标

字号+ 作者: 来源: 2017-05-20

学界 | 伯克利与OpenAI整合强化学习与GAN:让智能体学习自动发现目标,体智能老师工资多少,小飞蛙体智能,体智能课程的好处,自动整理衣服智能衣柜,亚太体智能舞蹈视频

选自arXiv

机器之心编译

参与:黄玉胜、吴攀

  强化学习(RL)和生成对抗网络(GAN)都是近来的热门研究主题,已经在许多领域得到了非常出色的表现。近日,伯克利和 OpenAI 的一项新研究将这两者组合到了一起。在一篇名为《用于强化学习智能体的自动目标生成(Automatic Goal Generation for Reinforcement Learning Agents)》的论文中,研究者提出了一种让智能体可以自动发现目标的方法。机器之心对该论文进行了摘要介绍,论文原文请参阅:https://arxiv.org/abs/1705.06366

  学界 | 伯克利与OpenAI整合强化学习与GAN:让智能体学习自动发现目标

强化学习是一种训练智能体执行任务的强大技术。然而,强化学习训练的智能体只能通过其奖励函数(reward function)实现单一任务,这种方法不能很好地扩展到智能体需要执行各种不同的任务集合中,例如导航到房间的不同位置或将物体移动到不同位置。相反,我们提出了一种允许智能体自动发现其能够执行的任务范围的方法。我们使用生成器网络给智能体提出任务,然后试着实现并将其作为目标状态(goal state)。该生成器网络使用对抗训练进行优化,以产生总是处于合适难度的智能体任务。因此,我们的方法自动生成任务,以供智能体学习。我们表明,通过使用此框架,智能体可以高效自动地学习执行广泛的任务,而不需要任何预先的环境知识。我们的方法也可学习以稀疏奖励(sparse reward)来完成任务,而在以往这是重大的挑战。

  学界 | 伯克利与OpenAI整合强化学习与GAN:让智能体学习自动发现目标

  算法 1:训练目标 GAN(Goal GAN)

  学界 | 伯克利与OpenAI整合强化学习与GAN:让智能体学习自动发现目标

  算法 2:生成式目标学习

学界 | 伯克利与OpenAI整合强化学习与GAN:让智能体学习自动发现目标

  图 1:我们的迷宫环境;以橙色显示的智能体必须移动到的一个目标位置(以红色显示),采样工作是在任务开始的时候开始的。迷宫墙呈灰色。

  学界 | 伯克利与OpenAI整合强化学习与GAN:让智能体学习自动发现目标

  图 2:我们的方法(蓝色)和基准方法(红色)训练效率学习曲线的比较。y 轴表示迷宫中所有目标位置的平均回报,x 轴显示了新目标已被采样的次数(对于两种方法,该策略都针对相同次数的迭代进行训练),所有的点均为在 5 个随机种子(seed)上的平均值。

  学界 | 伯克利与OpenAI整合强化学习与GAN:让智能体学习自动发现目标

  图 3:Goal GAN 采样的目标(与图 4 相同的训练方法)。当前方法与难度相适应就是「好目标」

  学界 | 伯克利与OpenAI整合强化学习与GAN:让智能体学习自动发现目标

  图 4:可视化状态空间不同部分的策略表现(与图 3 相同的训练策略)。说明一下,可行状态空间(即,迷宫内的空间)被划分为网格,并且从每个网格单元的中心选择目标位置。每个网格单元根据此目标实现的预期回报进行着色:红色表示 100% 的成功,蓝色表示 0% 成功。

  表 1:在完整的状态空间中可行目标的百分比

  学界 | 伯克利与OpenAI整合强化学习与GAN:让智能体学习自动发现目标

  图 5:二维和三维点质量的可视化,可行区域以蓝色界定。在(a)中的点是均匀采样的可行位置。如果智能体可以到达它们,则点为绿色,否则为红色。图中的线是观察到的特定推出,并且颜色匹配交叉是智能体在每种情况下试图达到的特定目标。在(b)中,我们通过 Goal GAN 绘制初始采样生成,采用我们的技术初始化生成器。

  学界 | 伯克利与OpenAI整合强化学习与GAN:让智能体学习自动发现目标

  图 6:当维度越来越大时,在 N 维点质量环境中获得的覆盖率(即每个策略可以达到的目标的百分比,返回值大于 Rmax)。每种方法已经产生了 200 次新目标,每个策略都用相同的总迭代次数进行训练。所有的图均为在 5 个随机种子(seed)上的平均值。

  点击阅读原文,查看全部嘉宾阵容并报名参与机器之心 GMIS 2017 ↓↓↓

相关阅读:

  • 体智能老师工资多少
  • 小飞蛙体智能
  • 亚太体智能舞蹈视频
  • 体智能课程的好处
  • gan生成对抗网络
  • 自动强化脚本
  • gan第三代半导体
  • 体智能单元表
  • 自动整理衣服智能衣柜
  • gan-btwz是什么电缆
  • gan魔方官网
  • 工具体完全在目标体外
  • 相关推荐:

  • 华为史上最美操作系统,你绝对不能错过的EMUI5.0
  • 国产操作系统典范:deepin操作系统
  • 娱乐办公两不误!这个笔记本能把屏幕拔下来写字
  • 斗鱼响应新规加强监管,坚持打造优质精品直播
  • SpaceX 火箭爆炸原因确定:液态氧过冷成了固态
  • 华为Mate9中国版真机秀 你绝对没发现它有两种版本
  • 99%的人都不知道的微信高效使用术?
  • 乐视网一周蒸发88亿元 贾跃亭反思节奏发展过快
  • 似乎已经战胜传统渠道的小米 今年为什么被OPPO、vivo 打败?
  • 优雅商务风,性能一鸣惊人—TCL 950体验评测
  • 转载请注明出处。


    1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

    相关文章
    • 案例 | 抑郁症、精神分裂,初中生家境优渥,父母为何不让吃药

      案例 | 抑郁症、精神分裂,初中生家境优渥,父母为何不让吃药

    • 实录 |12名女大学生被侵犯,色魔竟然是个老乞丐

      实录 |12名女大学生被侵犯,色魔竟然是个老乞丐

    • 微信群的多人语音和视频聊天功能,你要试试 | 有轻功 #081

      微信群的多人语音和视频聊天功能,你要试试 | 有轻功 #081

    • 为了不让你坐过站,香港人居然做了这款 App | AppWall 精选 #060

      为了不让你坐过站,香港人居然做了这款 App | AppWall 精选 #060