深度 | David Silver全面解读深度强化学习：从基础概念到AlphaGo(5)_

学习一个模型，即如何用深度学习完成基于模型的强化学习，并不是这个问题的难点。我们知道了如何规定学习模型的问题。事实上这不过是一个监督学习的问题罢了「如果你想预测：假设我采取了这个动作之后，环境会变成什么样子」。在这次讲座中，他没有太多地谈论这个问题，他只是展示了一个来自密歇根大学的视频，演示你如何能够建立一个模型，以及建立这个模型有多困难。这是该视频的屏幕截图：左侧是预测，右侧是真实情况。但是，这是很难实现的。

深度 | David Silver全面解读深度强化学习：从基础概念到AlphaGo

然而，如果我们有一个完美的模型呢？也就是说，游戏规则是已知的。是的，我们知道，AlphaGo 就是这样的。

Nature 上关于 AlphaGo 的论文：

　　AlphaGo 相关的资源: deepmind.com/research/alphago/

深度 | David Silver全面解读深度强化学习：从基础概念到AlphaGo

为什么下围棋对于计算机而言是很困难的？

暴力搜索是很难处理的。

1. 搜索空间是巨大的

2. 对计算机而言，评价哪一个玩家占据上风，「几乎是不可能的」。但是在一些诸如象棋的游戏中，就比较容易判断了。

过去很多人都认为找到一个解决这个问题的好方法是不可能的。

DeepMind 建立了一个卷积神经网络（CNN），这个网络将每一个状态（只要由棋子落下）看作一幅图像。然后用卷积神经网络去构造两个不同的神经网络。

一个代表价值网络

深度 | David Silver全面解读深度强化学习：从基础概念到AlphaGo

另一个代表策略网络：

深度 | David Silver全面解读深度强化学习：从基础概念到AlphaGo

为了训练它，我们结合了监督学习和强化学习，共有三个步骤，如下所示：

深度 | David Silver全面解读深度强化学习：从基础概念到AlphaGo

经过每一步之后的表现：

深度 | David Silver全面解读深度强化学习：从基础概念到AlphaGo

价值网络和策略网络的效果：

深度 | David Silver全面解读深度强化学习：从基础概念到AlphaGo

总结

通用、稳定并且可拓展的强化学习现在是可能的

用深度网络去代表价值、策略和模型

在 Atari、Labyrinth、物理、扑克、围棋中取得了成功

使用一系列深度强化学习的范例

强化学习是一个受行为心理学启发的机器学习领域。它正在变得越来越流行。在需要构建一个可以像人类一样甚至超越人类能力去做一些事的人工智能时，它是非常有用的，比如 AlphaGo。然而，在我看来，在开始学习强化学习之前，我们首先应该理解一些基本的机器学习相关的知识。良好的数学背景将会非常有助于你的学习，并且，这至关重要！

好运！我希望在下一届 ICML 会议上看到你的论文。

参考文献以及推荐的阅读材料：

2.Sutton, Richard S., and Andrew G. Barto. *Reinforcement learning: Anintroduction*. Vol. 1. No. 1. Cambridge: MIT press, 1998.

3.https://blogs.nvidia.com/blog/2016/07/29/whats-difference-artificial-intelligence-machine-learning-deep-learning-ai/

4.https://en.wikipedia.org/wiki/Reinforcement_learning

5.https://en.wikipedia.org/wiki/Bellman_equation

6.https://devblogs.nvidia.com/parallelforall/deep-learning-nutshell-reinforcement-learning/

转载请注明出处。