深度 | David Silver全面解读深度强化学习：从基础概念到AlphaGo

2017-03-26 编辑：

参与：马亚雄、吴攀、吴沁桐、Arac Wu

强化学习在与之相关的研究者中变得越来越流行，尤其是在 DeepMind 被 Google 收购以及 DeepMind 团队在之后的 AlphaGo 上大获成功之后。在本文中，我要回顾一下 David Silver 的演讲。David Silver 目前任职于 Google DeepMind 团队。他的演讲可以帮助我们获得对强化学习（RL）和深度强化学习（Deep RL）的基本理解，这不是一件特别难的事。

David Silver 的演讲视频可在这里查看：

在这个演讲视频中，David 做了对深度学习（DL）和强化学习（RL）的基本介绍，并讨论了如何将这两种学习方法结合成一种方法。有三种不同的可以结合深度学习和强化学习的方法：基于价值（value-based）、基于策略（policy-based）以及基于模型（model-based）的方法。在这个演讲中，David 提供了许多他们自己的实验的实例，最后以对 AlphaGo 的简单讨论结束了演讲。

概览

演讲分为五个部分：

介绍深度学习

介绍强化学习

基于价值的深度强化学习

基于策略的深度强化学习

基于模型的深度强化学习

然而，当我看完讲座、理解了各个主题之后，便决定在上述的演讲结构中引入一个新的部分——做一个深度强化学习（Deep RL）的概述。这篇文章将会按照如下组织：

介绍深度学习

介绍强化学习

深度强化学习概述

基于价值的深度强化学习

基于策略的深度强化学习

基于模型的深度强化学习

希望上述的文章结构能够帮助大家更好地理解整个主题。我会重点关注演讲视频中的重点，并尽可能去解释一些问题的复杂概念。我也会给出我自己的观点、建议以及一些可以帮助到大家的参考资料。

在深入研究更加复杂的强化学习（RL）主题之前，我会尽可能提供一些关于深度学习和强化学习的基本知识，因为对不了解这两个主题的基本知识的人而言，这个演讲是有一定难度的。希望这些基本知识可以帮助大家。如果你对自己的知识非常有信心，那么，你可以跳过文章的前两部分。

深度学习介绍

什么是深度学习？

　　深度学习是表征学习的通用框架，它有以下特点：

给定一个目标（objective）

学习能够实现目标的特征

直接的原始输入

使用最少的领域知识

　　深度学习（deep learning）的意思就是深度表征（deep representation）。

　　如图所示，一个深度表征由很多函数组成，它的梯度可以通过链式法则来反向传播。