深度 | 用于图像分割的卷积神经网络：从R_

选自Athelas

作者：Dhruv Parthasarathy

机器之心编译

参与：王宇欣、hustcxy、黄小天

卷积神经网络（CNN）的作用远不止分类那么简单！在本文中，我们将看到卷积神经网络（CNN）如何在图像实例分割任务中提升其结果。

自从 Alex Krizhevsky、Geoff Hinton 和 Ilya Sutskever 在 2012 年赢得了 ImageNet 的冠军，卷积神经网络就成为了分割图像的黄金准则。事实上，从那时起，卷积神经网络不断获得完善，并已在 ImageNet 挑战上超越人类。

　　深度 | 用于图像分割的卷积神经网络：从R

现在，卷积神经网络在 ImageNet 的表现已超越人类。图中 y 轴代表 ImageNet 错误率。

虽然这些结果令人印象深刻，但与真实的人类视觉理解的多样性和复杂性相比，图像分类还是简单得多。

深度 | 用于图像分割的卷积神经网络：从R

分类挑战赛使用的图像实例。注意图像的构图以及对象的唯一性。

在分类中，图像的焦点通常是一个单一目标，任务即是对图像进行简单描述（见上文）。但是当我们在观察周遭世界时，我们处理的任务相对复杂的多。

　　深度 | 用于图像分割的卷积神经网络：从R

现实中的情景通常由许多不同的互相重叠的目标、背景以及行为构成。

我们看到的情景包含多个互相重叠的目标以及不同的背景，并且我们不仅要分类这些不同的目标还要识别其边界、差异以及彼此的关系！

　　深度 | 用于图像分割的卷积神经网络：从R

在图像分割中，我们的目的是对图像中的不同目标进行分类，并确定其边界。来源：Mask R-CNN

卷积神经网络可以帮我们处理如此复杂的任务吗？也就是说，给定一个更为复杂的图像，我们是否可以使用卷积神经网络识别图像中不同的物体及其边界？事实上，正如 Ross Girshick 和其同事在过去几年所做的那样，答案毫无疑问是肯定的。

本文的目标

在本文中，我们将介绍目标检测和分割的某些主流技术背后的直观知识，并了解其演变历程。具体来说，我们将介绍 R-CNN（区域 CNN），卷积神经网络在这个问题上的最初的应用，及变体 Fast R-CNN 和 Faster R-CNN。最后，我们将介绍 Facebook Research 最近发布的一篇文章 Mask R-CNN，它扩展了这种对象检测技术从而可以实现像素级分割。上述四篇论文的链接如下：

1. R-CNN: https://arxiv.org/abs/1311.2524

2. Fast R-CNN: https://arxiv.org/abs/1504.08083

3. Faster R-CNN: https://arxiv.org/abs/1506.01497

4. Mask R-CNN: https://arxiv.org/abs/1703.06870

2014 年：R-CNN - 首次将 CNN 用于目标检测

深度 | 用于图像分割的卷积神经网络：从R

目标检测算法，比如 R-CNN，可分析图像并识别主要对象的位置和类别。

受到多伦多大学 Hinton 实验室的研究的启发，加州伯克利大学一个由 Jitendra Malik 领导的小组，问了他们自己一个在今天看来似乎是不可避免的问题：

Krizhevsky et. al 的研究成果可在何种程度上被推广至目标检测？

目标检测是一种找到图像中的不同目标并进行分类的任务（如上图所示）。通过在 PASCAL VOC Challenge 测试（一个知名的对象检测挑战赛，类似于 ImageNet），由 Ross Girshick（将在下文细讲）、Jeff Donahue 和 Trevor Darrel 组成的团队发现这个问题确实可通过 Krizhevsky 的研究结果获得解决。他们写道：

Krizhevsky et. al 第一次提出：相比基于更简单、HOG 般的特征的系统，卷及神经网络可显著提升 PASCAL VOC 上的目标检测性能。

现在让我们花点时间来了解他们的架构 R-CNN 的运作的方式。

理解 R-CNN

R-CNN 的目的为接收图像，并正确识别图像中主要目标（通过边界框）的位置。

输入：图像

输出：边界框+图像中每个目标的标注

但是我们如何找出这些边界框的位置？R-CNN 做了我们也可以直观做到的——在图像中假设了一系列边界，看它们是否可以真的对应一个目标。

　　深度 | 用于图像分割的卷积神经网络：从R

通过多个尺度的窗口选择性搜索，并搜寻共享纹理、颜色或强度的相邻像素。图片来源：https：//www.koen.me/research/pub/uijlings-ijcv2013-draft.pdf

R-CNN 创造了这些边界框，或者区域提案（region proposal）关于这个被称为选择性搜索（Selective Search）的方法，可在这里（链接：http://www.cs.cornell.edu/courses/cs7670/2014sp/slides/VisionSeminar14.pdf）阅读更多信息。在高级别中，选择性搜索（如上图所示）通过不同尺寸的窗口查看图像，并且对于不同尺寸，其尝试通过纹理、颜色或强度将相邻像素归类，以识别物体。

转载请注明出处。