深度 | 理解深度学习中的卷积(4)
2017-03-29 编辑:
对时序数据,有两种重要的模型:weighted moving average 和 autoregressive 模型,后者可归入 ARIMA model (autoregressive integrated moving average model)。比起 LSTM,ARIMA 很弱。但在低维度数据(1-5 维)上,ARIMA 非常健壮。虽然它们有点难以解释,但 ARIMA 绝不是像深度学习算法那样的黑盒子。如果你需要一个可信的模型,这是个巨大的优势。
我们可以将这些统计模型写成卷积的形式,然后深度学习中的卷积就可以解释为产生局部 ARIMA 特征的函数了。这两种形式并不完全重合,使用需谨慎。
C 是一个以核为参数的函数,white noise 是正规化的均值为 0 方差为 1 的互不相关的数据。
当我们预处理数据的时候,经常将数据处理为类似 white noise 的形式:将数据移动到均值为 0,将方差调整为 1。我们很少去除数据的相关性,因为计算复杂度高。但是在概念上是很简单的,我们旋转坐标轴以重合数据的特征向量:
现在如果我们将 C 作为 bias,我们就会觉得这与卷积神经网络很像。所以卷积层的输出可被解释为白噪音数据经过 autoregressive model 的输出。
weighted moving average 的解释更简单:就是输入数据与某个固定的核的卷积。看看文末的高斯平滑核就会明白这个解释。高斯平滑核可以被看做每个像素与其邻居的平均,或者说每个像素被其邻居平均(边缘模糊)。
虽然单个核无法同时创建 autoregressive 和 weighted moving average 特征,但我们可以使用多个核来产生不同的特征。
总结
这篇博客中我们知道了卷积是什么、为什么在深度学习中这么有用。图片区块的解释很容易理解和计算,但有其理论局限性。我们通过学习傅里叶变换知道傅里叶变换后的时域上有很多关于物体朝向的信息。通过强大的卷积定理我们理解了卷积是一种在像素间的信息流动。之后我们拓展了量子力学中传播子的概念,得到了一个确定过程中的随机解释。我们展示了互相关与卷积的相似性,并且卷积网络的性能可能是基于 feature map 间的互相关程度的,互相关程度是通过卷积校验的。最后我们将卷积与两种统计模型关联了起来。
个人来讲,我觉得写这篇博客很有趣。曾经很长一段时间我都觉得本科的数学和统计课是浪费时间,因为它们太不实用了(哪怕是应用数学)。但之后——就像突然中大奖一样——这些知识都相互串起来了并且带了新的理解。我觉得这是个绝妙的例子,启示我们应该耐心地学习所有的大学课程——哪怕它们一开始看起来没有用。
上文高斯平滑核问题的答案
Reference
R. B. Fisher, K. Koryllos,「Interactive Textbooks; Embedding Image Processing Operator Demonstrations in Text」, Int. J. of Pattern Recognition and Artificial Intelligence, Vol 12, No 8, pp 1095-1123, 1998.
原英文链接: