深度 | 用于图像分割的卷积神经网络：从R(2)_

　　深度 | 用于图像分割的卷积神经网络：从R

在创建一组区域提案（region proposal）后，R-CNN 只需将图像传递给修改版的 AlexNet 以确定其是否为有效区域。

一旦创建了这些提案，R-CNN 简单地将该区域卷曲到一个标准的平方尺寸，并将其传递给修改版的 AlexNet（ImageNet 2012 的冠军版本，其启发了 R-CNN），如上所示。

在 CNN 的最后一层，R-CNN 添加了一个支持向量机（SVM），它可以简单地界定物体是否为目标，以及是什么目标。这是上图中的第 4 步。

提升边界框

现在，在边界框里找到了目标，我们可以收紧边框以适应目标的真实尺寸吗？我们的确可以这样做，这也是 R-CNN 的最后一步。R-CNN 在区域提案上运行简单的线性回归，以生成更紧密的边界框坐标从而获得最终结果。下面是这一回归模型的输入和输出：

输入：对应于目标的图像子区域

输出：子区域中目标的新边界框坐标

所以，概括一下，R-CNN 只是以下几个简单的步骤

1. 为边界框生成一组提案。

2. 通过预训练的 AlexNet 运行边界框中的图像，最后通过 SVM 来查看框中图像的目标是什么。

3. 通过线性回归模型运行边框，一旦目标完成分类，输出边框的更紧密的坐标。

2015： Fast R-CNN - 加速和简化 R-CNN

深度 | 用于图像分割的卷积神经网络：从R

Ross Girshick 编写了 R-CNN 和 Fast R-CNN，并持续推动着 Facebook Research 在计算机视觉方面的进展。

R-CNN 性能很棒，但是因为下述原因运行很慢：

1. 它需要 CNN（AlexNet）针对每个单图像的每个区域提案进行前向传递（每个图像大约 2000 次向前传递）。

2. 它必须分别训练三个不同的模型 - CNN 生成图像特征，预测类别的分类器和收紧边界框的回归模型。这使得传递（pipeline）难以训练。

2015 年，R-CNN 的第一作者 Ross Girshick 解决了这两个问题，并创造了第二个算法——Fast R-CNN。下面是其主要思想。

Fast R-CNN 见解 1：ROI（兴趣区域）池化

对于 CNN 的前向传递，Girshick 意识到，对于每个图像，很多提出的图像区域总是相互重叠，使得我们一遍又一遍地重复进行 CNN 计算（大约 2000 次！）。他的想法很简单：为什么不让每个图像只运行一次 CNN，然后找到一种在 2000 个提案中共享计算的方法？

　　深度 | 用于图像分割的卷积神经网络：从R

在 ROIPool 中，创建了图像的完整前向传递，并从获得的前向传递中提取每个兴趣区域的转换特征。来源：CS231N 幻灯片，Fei Fei Li、Andrei Karpathy、和 Justin Johnson 斯坦福大学

这正是 Fast R-CNN 使用被称为 RoIPool（兴趣区域池化）的技术所完成的事情。其要点在于，RoIPool 分享了 CNN 在图像子区域的前向传递。在上图中，请注意如何通过从 CNN 的特征映射选择相应的区域来获取每个区域的 CNN 特征。然后，每个区域的特征简单地池化（通常使用最大池化（Max Pooling））。所以我们所需要的是原始图像的一次传递，而非大约 2000 次！

Fast R-CNN 见解 2：将所有模型并入一个网络

　　深度 | 用于图像分割的卷积神经网络：从R

Fast R-CNN 将卷积神经网络（CNN），分类器和边界框回归器组合为一个简单的网络。

Fast R-CNN 的第二个见解是在单一模型中联合训练卷积神经网络、分类器和边界框回归器。之前我们有不同的模型来提取图像特征（CNN），分类（SVM）和紧缩边界框（回归器），而 Fast R-CNN 使用单一网络计算上述三个模型。

在上述图像中，你可以看到这些工作是如何完成的。Fast R-CNN 在 CNN 顶部用简单的 softmax 层代替了支持向量机分类器（SVM classfier）以输出分类。它还添加了与 softmax 层平行的线性回归层以输出边界框坐标。这样，所有需要的输出均来自一个单一网络！下面是整个模型的输入和输出：

输入：带有区域提案的图像

输出：带有更紧密边界框的每个区域的目标分类

2016：Faster R-CNN—加速区域提案

即使有了这些进步，Faster R-CNN 中仍存在一个瓶颈问题——区域提案器（region proposer）。正如我们所知，检测目标位置的第一步是产生一系列的潜在边界框或者供测试的兴趣区域。在 Fast R-CNN，通过使用选择性搜索创建这些提案，这是一个相当缓慢的过程，被认为是整个流程的瓶颈。

　　深度 | 用于图像分割的卷积神经网络：从R

微软研究院首席研究员孙剑领导了 Faster R-CNN 团队。

2015 年中期，由 Shaoqing Ren、Kaiming He、Ross Girshick 和孙剑组成的微软研究团队，找到了一种被其命为 Faster R-CNN 的架构，几乎把区域生成步骤的成本降为零。

Faster R-CNN 的洞见是，区域提案取决于通过 CNN 的前向（forward pass）计算（分类的第一步）的图像特征。为什么不重复使用区域提案的相同的 CNN 结果，以取代单独运行选择性搜索算法？

转载请注明出处。