深度 | David Silver全面解读深度强化学习：从基础概念到AlphaGo(2)_

「本质上，这些都是闭环系统，因为学习系统的行为会影响它之后的输入。此外，(1) 学习系统没有像很多其它形式的机器学习方法一样被告知应该做出什么行为;(2) 相反，必须在尝试了之后才能发现哪些行为会导致奖励的最大化；(3) 在大多数有趣并且有挑战性的例子中，当前的行为可能不仅仅会影响即时奖励，还会影响下一步的奖励以及后续的所有奖励。这三个特征是强化学习中最重要的三个区分特征，作为闭环系统的本质、没有关于该采取什么行动和后续的包括奖励信号和完成学习的时间的直接指示。」[2]

强化学习和标准监督学习的区别就在于从来不呈现正确的输入/输出对，也不存在次优化的行为被显式地修正。此外，还关注在线性能。在线性能涉及在对未知领域的探索和当前领域知识的利用之间寻求一个平衡。[4]

我们曾经介绍过强化学习:

并且还有一个视频演示：

前面说了一下什么是强化学习的问题，那么，我们为什么要关注强化学习呢? 简而言之，强化学习是一个通用的决策框架。实际上我们关心的是开发一个能够在现实世界中做出决策的代理（agent）。我们不仅想给它算法并让它采取行动。我们还想让代理做决策。而强化学习可以让代理学会做决策。

强化学习用于具有行动能力的代理

每一个动作（action）都能影响代理将来的状态（state）

通过一个标量的奖励（reward）信号来衡量成功

目标：选择一系列行动来最大化未来的奖励

深度 | David Silver全面解读深度强化学习：从基础概念到AlphaGo

在每一个时刻 t,代理会执行一个动作 at, 收到一个观测信号 Ot, 收到一个标量奖励 rt。外界环境会收到一个动作 at, 发出一个观测信号 Ot+1，发出一个奖励信号 rt+1。

由于每个问题都有其各自不同的特点，所以，为了实现「通用」的目标，我们需要找到它们的共同点和一些规律性的东西。希望大家可以在没有解释的情况下理解上图的内容。图中的大脑是我们所说的代理，图中的地球是代理所处的环境。任何时刻，当代理执行一个动作 at 之后，它将会收到对环境的观测量 Ot 以及来自环境的奖励 rt，同时，收到动作 at 之后，环境会发出下一个观测量 Ot+1，以及奖励 rt+1。这就引入了一个新的概念：状态。

深度 | David Silver全面解读深度强化学习：从基础概念到AlphaGo

如上图所示，状态是所有经历（experience）的总和，经历就是上图中的第一个序列函数。某时刻 t 的状态 st 是该时刻以及之前所有时刻的所有观测量、奖励以及动作序列的函数。但是，当代理所处的环境具有一种我们所说的完全可观测性之后，就有了上图中的第二个状态函数——某时刻的状态仅仅是该时刻的观测值 Ot 的函数，这样一来，整个经历似乎具备了某种类似于马尔可夫性的性质。

然后，就有了三个新的想法：策略（policy）、价值函数（value function）和模型（model）。

深度 | David Silver全面解读深度强化学习：从基础概念到AlphaGo