从自编码器到生成对抗网络：一文纵览无监督学习研究现状(3)_

　　从自编码器到生成对抗网络：一文纵览无监督学习研究现状

这项技术的一个问题就是：一个训练在静态图像帧上的神经网络被用来解释视频输入。这种网络不会学习到视频的时间动态变化以及在空间运动的物体的平滑变换。所以我们认为这个网络并不适合用来预测未来视频中的画面。

为了克服这个问题，我们团队创建了一个大型的视频数据集 eVDS（https://engineering.purdue.edu/elab/eVDS/），可用来直接从视频数据上训练新的（递归和反馈）网络模型。

PredNet

PredNet 是被设计来预测视频中未来帧的网络。在这个博客中可以看到一些例子，博客链接：https://coxlab.github.io/prednet/。

PredNet 是一个非常聪明的神经网络型，在我们看来，它将在将来的神经网络中起着重要的作用。PredNet 学习到了超越监督式 CNN 中的单帧图片的神经表征。

PredNet 结合了生物启发的双向 [人脑模型]（详见论文《Unsupervised Pixel-prediction》，https://papers.nips.cc/paper/1083-unsupervised-pixel-prediction.pdf）。它使用了 [预测编码和神经模型中的反馈连接]（详见论文《Neural Encoding and Decoding with Deep Learning for Dynamic Natural Vision》，http://arxiv.org/abs/1608.03425）。下面是 PredNet 模型以及一个具有两个堆叠层的例子：

　　从自编码器到生成对抗网络：一文纵览无监督学习研究现状

PredNet 结合了生物启发的双向人脑模型

这个模型有以下这几个优点：

可使用无标签的数据来训练

在每一层嵌入了损失函数来计算误差

具有执行在线学习的能力，通过监控错误信号，当模型不能预测输出的时候，它会知道需要学习误差信号

PredNet 存在的一个问题是，对第一层的一些简单的基于运动的滤波器而言，预测未来输入的帧是相对容易的。在我们所做的 PredNet 的实验中，PredNet 在重建输入帧的时候学会了在重建输入帧时达到很好的效果，但是更高层不会学到较好的表征。事实上，在实验中更高层连简单的分类任务都解决不了。

事实上，预测未来的帧是不必要的。我们愿意做的就是去预测下一帧的表征，就像 Carl Vondrick 做的一样。详见论文《Anticipating Visual Representations from Unlabeled Video》，链接：https://arxiv.org/abs/1504.08023。

通过观察物体的运动来学习特征

最近的这篇论文通过观察视频中物体的运动来训练无监督模型（《Learning Features by Watching Objects Move》，https://people.eecs.berkeley.edu/~pathak/unsupervised_video/）。运动以光流的形式被提取出来，并被用作运动物体的分割模板。尽管光流信号并没有提供任何一个接近良好的分割模板，但是在大规模数据集上的平均效果使得最终的网络会表现良好。例子如下所示：

转载请注明出处。