社会焦点

深度 | 用于图像分割的卷积神经网络:从R

字号+ 作者: 来源: 2017-04-25

深度 | 用于图像分割的卷积神经网络:从R,cnn卷积 人脸检测,crf用于图像分割,cnn提取图像深度信息,川普怒怼cnn记者,深度卷积网络的图像超分辨

选自Athelas

作者:Dhruv Parthasarathy

机器之心编译

参与:王宇欣、hustcxy、黄小天

卷积神经网络(CNN)的作用远不止分类那么简单!在本文中,我们将看到卷积神经网络(CNN)如何在图像实例分割任务中提升其结果。

自从 Alex Krizhevsky、Geoff Hinton 和 Ilya Sutskever 在 2012 年赢得了 ImageNet 的冠军,卷积神经网络就成为了分割图像的黄金准则。事实上,从那时起,卷积神经网络不断获得完善,并已在 ImageNet 挑战上超越人类。

  深度 | 用于图像分割的卷积神经网络:从R

现在,卷积神经网络在 ImageNet 的表现已超越人类。图中 y 轴代表 ImageNet 错误率。

虽然这些结果令人印象深刻,但与真实的人类视觉理解的多样性和复杂性相比,图像分类还是简单得多。

深度 | 用于图像分割的卷积神经网络:从R

分类挑战赛使用的图像实例。注意图像的构图以及对象的唯一性。

在分类中,图像的焦点通常是一个单一目标,任务即是对图像进行简单描述(见上文)。但是当我们在观察周遭世界时,我们处理的任务相对复杂的多。

  深度 | 用于图像分割的卷积神经网络:从R

现实中的情景通常由许多不同的互相重叠的目标、背景以及行为构成。

我们看到的情景包含多个互相重叠的目标以及不同的背景,并且我们不仅要分类这些不同的目标还要识别其边界、差异以及彼此的关系!

  深度 | 用于图像分割的卷积神经网络:从R

在图像分割中,我们的目的是对图像中的不同目标进行分类,并确定其边界。来源:Mask R-CNN

卷积神经网络可以帮我们处理如此复杂的任务吗?也就是说,给定一个更为复杂的图像,我们是否可以使用卷积神经网络识别图像中不同的物体及其边界?事实上,正如 Ross Girshick 和其同事在过去几年所做的那样,答案毫无疑问是肯定的。

本文的目标

在本文中,我们将介绍目标检测和分割的某些主流技术背后的直观知识,并了解其演变历程。具体来说,我们将介绍 R-CNN(区域 CNN),卷积神经网络在这个问题上的最初的应用,及变体 Fast R-CNN 和 Faster R-CNN。最后,我们将介绍 Facebook Research 最近发布的一篇文章 Mask R-CNN,它扩展了这种对象检测技术从而可以实现像素级分割。上述四篇论文的链接如下:

1. R-CNN: https://arxiv.org/abs/1311.2524

2. Fast R-CNN: https://arxiv.org/abs/1504.08083

3. Faster R-CNN: https://arxiv.org/abs/1506.01497

4. Mask R-CNN: https://arxiv.org/abs/1703.06870

2014 年:R-CNN - 首次将 CNN 用于目标检测

深度 | 用于图像分割的卷积神经网络:从R

目标检测算法,比如 R-CNN,可分析图像并识别主要对象的位置和类别。

受到多伦多大学 Hinton 实验室的研究的启发,加州伯克利大学一个由 Jitendra Malik 领导的小组,问了他们自己一个在今天看来似乎是不可避免的问题:

Krizhevsky et. al 的研究成果可在何种程度上被推广至目标检测?

目标检测是一种找到图像中的不同目标并进行分类的任务(如上图所示)。通过在 PASCAL VOC Challenge 测试(一个知名的对象检测挑战赛,类似于 ImageNet),由 Ross Girshick(将在下文细讲)、Jeff Donahue 和 Trevor Darrel 组成的团队发现这个问题确实可通过 Krizhevsky 的研究结果获得解决。他们写道:

Krizhevsky et. al 第一次提出:相比基于更简单、HOG 般的特征的系统,卷及神经网络可显著提升 PASCAL VOC 上的目标检测性能。

现在让我们花点时间来了解他们的架构 R-CNN 的运作的方式。

理解 R-CNN

R-CNN 的目的为接收图像,并正确识别图像中主要目标(通过边界框)的位置。

  • 输入:图像

  • 输出:边界框+图像中每个目标的标注

  • 但是我们如何找出这些边界框的位置?R-CNN 做了我们也可以直观做到的——在图像中假设了一系列边界,看它们是否可以真的对应一个目标。

      深度 | 用于图像分割的卷积神经网络:从R

    通过多个尺度的窗口选择性搜索,并搜寻共享纹理、颜色或强度的相邻像素。图片来源:https://www.koen.me/research/pub/uijlings-ijcv2013-draft.pdf

    R-CNN 创造了这些边界框,或者区域提案(region proposal)关于这个被称为选择性搜索(Selective Search)的方法,可在这里(链接:http://www.cs.cornell.edu/courses/cs7670/2014sp/slides/VisionSeminar14.pdf)阅读更多信息。在高级别中,选择性搜索(如上图所示)通过不同尺寸的窗口查看图像,并且对于不同尺寸,其尝试通过纹理、颜色或强度将相邻像素归类,以识别物体。

    转载请注明出处。


    1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

    相关文章
    • 案例 | 抑郁症、精神分裂,初中生家境优渥,父母为何不让吃药

      案例 | 抑郁症、精神分裂,初中生家境优渥,父母为何不让吃药

    • 实录 |12名女大学生被侵犯,色魔竟然是个老乞丐

      实录 |12名女大学生被侵犯,色魔竟然是个老乞丐

    • 地震最新消息 今天泰安发生2.9级地震 深度7千米 地震来了怎么办

      地震最新消息 今天泰安发生2.9级地震 深度7千米 地震来了怎么办

    • 地震最新消息 今天新疆阿克陶县发生3.4级地震 震源深度9千米

      地震最新消息 今天新疆阿克陶县发生3.4级地震 震源深度9千米