显式正则化更像是做调整参数,有助于改善泛化能力,但不使用显示正则化方法也不一定意味着会产生泛化错误。并不是所有拟合训练数据的模型都能够很好地泛化。这篇论文中一个有趣的分析表明,通过使用梯度下降也能获取一定量的正则化:
“我们分析了作为隐式正则化函数的随机梯度下降(SGD)的表现。对于线性模型,SGD 总是收敛到一个小正态(norm)的解决方案。因此,算法本身将解决方案隐性地正则化了……尽管这并不能解释为什么某些架构比其他架构泛化得更好,但它确实表明,要准确理解使用 SGD 训练的模型继承了哪些属性,还需要更多的调查。”
机器学习模型的有效容量
假设有个神经网络,训练样本是有限数的 n。如果网络有 p 个参数(p>n),那么即使是简单到只有两层的神经网络也可以对输入样本的任何函数进行表征。论文作者(在附录中)证明以下定理:
“存在一个激活函数为 ReLU 的两层神经网络,权重为 2n + d,可以对维度为 d 大小为 n 的样本的任何函数进行表征。”
就连线性大小的 2 层深网络也可以表征训练数据的任何标签!
结论:需要新的衡量模型复杂度的方法
“这种情况对统计学习理论构成了一个概念上的挑战,因为衡量模型复杂度量的传统方法不能很好地解释大规模人工神经网络的泛化能力。我们认为,我们目前还没有发现一个精确的正式衡量方法,在这个衡量方法下,这些庞大的模型都很简单。从我们的实验得出的另一个见解是,即使最终的模型不能泛化,在实际操作中优化还是很容易的。这也表明了为什么实践中容易做优化的原因与神经网络泛化能力的原因是不同的。”
论文及 ICLR-17 公开评审简介
摘要
尽管体积巨大,成功的深度人工神经网络在训练和测试性能之间可以展现出非常小的差异。过去一般将其归功于泛化误差小,无论是对模型谱系的特点还是对于训练中使用的正则技术来说。
通过广泛的系统的实验,我们展示了传统方法无法解释为什么大规模神经网络在实践中泛化表现好。 具体来说,我们的实验证明了用随机梯度方法训练的、用于图像分类的最先进的卷积网络很容易拟合训练数据的随机标记。这种现象本质上不受显式正则化影响,即使我们通过完全非结构化随机噪声来替换真实图像,也会发生这种现象。我们用一个理论结构证实了这些实验结果,表明只要参数的数量超过实践中通常的数据点的数量,简单两层深的神经网络就已经具有完美的有限样本表达性(finite sample expressivity)。我们通过与传统模型进行比较来解释我们的实验结果。
【一句话总结】通过深入系统的实验,我们指出传统方式无法解释为什么大规模神经网络在实践中泛化表现良好,同时指出我们为何需要重新思考泛化问题。
【ICLR 评委会最终决定】作者提供了深度神经网络拟合随机标注数据能力的迷人研究结果。调查深入,有启发性,鼓舞人心。作者提出了a)一个理论实例,显示具有大量参数和足够大的 wrt 样本的简单浅层网络产生了完美的有限样本表达性;b)系统广泛的实验评价,以支持研究结果和论点。实验评价的考虑非常周全。
论文地址:https://openreview.net/forum?id=Sy8gdB9xx¬eId=Sy8gdB9xx
Adrian 原文:https://blog.acolyer.org/2017/05/11/understanding-deep-learning-requires-re-thinking-generalization/
©? 本文为新智元获授权翻译,未经授权请勿转载。
相关阅读:
相关推荐:
转载请注明出处。