本文将分 3 期进行连载,共介绍 16 个在目标检测任务上曾取得 SOTA 的经典模型。
- 第 1 期:R-CNN、SPP-Net、Fast R-CNN、Faster R-CNN、OHEM
- 第 2 期:R-FCN、Mask RCNN、YoLo、SSD、FPN、RetinaNet
- 第 3 期:RRC detection、CornerNet、M2Det、FOCS、ObjectBox
您正在阅读的是其中的第 1 期。前往 SOTA!模型资源站(sota.jiqizhixin.com)即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。
本期收录模型速览
目标检测作为计算机视觉的基本问题之一,是许多其他计算机视觉任务的基础,如实例分割、图像字幕、对象跟踪等。简单来说,目标检测就是对图片中物体正确分类,同时找到物体的具体位置,具体是指识别图片中有哪些物体以及物体的位置(坐标位置)的技术。在互联网、大数据、人工智能等技术的发展浪潮下,目标检测展现出巨大的应用价值,受到工业界、学术界越来越多的关注。
目标检测的发展大致经历了两个历史时期:“ 传统的目标检测时期 ” ( 2014年以前 ) 和 “ 深度学习的目标检测时期 ” ( 2014年以后 )。本文重点回顾深度学习时代的经典模型。在深度学习时代,目标检测可以分为两类:“ two-stage detection ” 和 “ one-stage detection ”,前者将检测框定为一个 “ 从粗到细 ” 的过程,而后者将其定义为 “ 一步完成 ”。我们在介绍过程中,将分两类进行分析。两阶段模型(two-stage detection)因其对图片的两阶段处理得名,也称为基于区域(Region-based)的方法,R-CNN系列工作就是这一类型的代表。单阶段模型(one-stage detection)没有中间的区域检出过程,直接从图片获得预测结果,也被称为Region-free方法。
本文回顾目标检测中必备的TOP模型,包括one-stage模型和two-stage模型。
一、two-stage模型
1、 R-CNN
R-CNN是以深度神经网络为基础的物体检测模型 ,R-CNN在当时以优异的性能令世人瞩目,更重要的是,后续的SPPNet、Fast R-CNN、Faster R-CNN模型都是照着这个检测思路来工作的。R-CNN是这个系列的开山之作。
R-CNN将检测抽象为两个过程,首先,基于图片提出若干可能包含物体的区域(即图片的局部裁剪,被称为Region Proposal),文中使用的是Selective Search算法。其次,在提出的这些区域上运行当时表现最好的分类网络(文中使用AlexNet),得到每个区域内物体的类别。
如图1,R-CNN模型的具体实现步骤(以AlexNet网络为基准)如下:(1)确定图片中可能存在目标的侯选区域 (region proposal);(2)将候选区域调整为适应AlexNet网络的输入图像的大小227×227,通过CNN对候选区域提取特征向量,将2000个CNN特征组确定为AlexNet的最终输出,输出的大小为2000×4096;(3)利用2000×4096维特征训练SVM分类器,生成2000×20种类别矩阵;(4)分别对2000×20维矩阵进行非极大值抑制(Non-maximum suppression,NMS)剔除重叠的候选框,得到与目标物体最相关的一些建议框;(5)修正bbox,对bbox做回归微调。
当前 SOTA!平台收录 R-CNN 共 2 个模型实现资源。
2、 SPP-Net
SPPNet(spatial pyramid pooling Net,空间金字塔池化)具体是在R-CNN的基础上引入了一个SPP层,其基本思路是:剔除原始图像上的缩放等操作,转而在卷积特征上采用空间金字塔池化层。此外,SPPNET 解决了 R-CNN 检测速度慢的问题。在一张图片中提取出 region proposal 之后,需要把每一个 region proposal 当做一张图片参加后面的操作,针对2000个region proposal,可以将它们看做一张图片的一个部分,我们可以选择对图像进行一次卷积层的特征提取,之后仅仅需要将 region proposal 从原图上的位置直接映射到卷积层的特征图上,这样针对一张图片只需要在它的卷积层上做一次特征提取即可,之后再将每一个 region proposal 的卷积层特征直接输入到全连接层上做后面的操作就可以了。
SPPNet还解决了R-CNN的另外一个问题:每一个 region proposal 的大小尺度都是不一样的,而全连接层的输入必须是同一长度的, 因此不能将 region proposal 直接输入到全连接层上。SPPNet针对输入到 CNN 中的每一张图片,进行卷积流程之后就能够获取卷积的特征,比如在 VGG16 中,最后的卷积层是 conv5_3,就能够得到512张特征图。原图中的一个 region proposal 映射到特征图上的区域,就是图中的 window 区域,只需要把这些大小尺度不同的 window 的特征对应得到维度相同的特征,并把它们输入到全连接层上,之后只需要在卷积层上对图片进行一次特征提取。SPPNET 采用的是空间金字塔的采样方式,把每一个窗口分割为 4×4,2×2,1×1 的块,之后对每一个块利用 max-pooling进行采样,确保每一个窗口通过 SPP 层之后就能输出一个(4×4+2×2+1×1)×512 维度的向量特征,把这个多维度的向量特征当做全连接层的输入来参加之后的流程。
SPPNET 目标检测方法的操作步骤如下:(1) 区域选择:在图片中选取 2000 个候选区域,可采用 selective search 选取;(2) 候选区域缩放:SPPNET统一候选区域的长宽的最短边的长度,即 min(w,h)=s,s 从{480,576,688,864,1200}中进行选择,具体选择的原理是令调整之后的候选区域和 224×224 最相近,则为最优选择;(3) 提取特征:采用 SPPNET 架构来进行特征提取;(4) 分类和回归:与R-CNN 类似,利用特征训练SVM 分类器,同时采用边框回归来进行候选边框的调整。
当前 SOTA!平台收录 SPPNET 共 3 个模型实现资源。
3、 Fast R-CNN
SPPNet的性能已经得到很大的改善,但是由于网络之间不统一训练,造成很大的麻烦,接下来的Fast R-CNN就是为了解决这样的问题。Fast R-CNN提出了一个RoI pooling,然后整合整个模型,对CNN、RoI pooling、分类器、bbox回归几个模块一起训练。
Fast R-CNN采用精简的 SPP 架构:在卷积层的最后一层后面加了一个 ROI pooling layer 结构,它的操作和 SPP 是类似的,SPPNET 采用的是不同形状大小的金字塔映射,来对每一个 proposal 进行投射,而 ROI pooling layer 仅要求对 7*7 的特征图进行下采样操作。比如对VGG16 模型 conv5_3 是有 512 个特征图的,那么全部的 region proposal 的全连接层的输入向量就是 7×7×512 维的特征向量。
如图3,Fast R-CNN 模型的实现步骤如下:(1)首先将整个图片输入到一个基础卷积网络,得到整张图的feature map;(2)将选择性搜索算法的结果region proposal(RoI)映射到feature map中;(3)RoI pooling layer提取一个固定长度的特征向量,每个特征会输入到一系列全连接层,得到一个RoI特征向量(此步骤是对每一个候选区域都会进行同样的操作)。其中一个是传统softmax层进行分类,输出类别有K个类别加上”背景”类,另一个是bounding box 回归。
当前 SOTA!平台收录 Fast R-CNN 共 27 个模型实现资源。
4、 Faster R-CNN
Faster R-CNN 舍弃了之前目标检测使用的 selective search 算法,而直接采用 RPN(Region Proposal Networks)网络来提取候选区域。RPN 将一张大小随意的图片输入到 RPN 结构中,得到的是一系列矩形候选区域,每一个矩形候选区域都对应着一个目标分数和位置信息。RPN 结构如
Faster R-CNN模型实现步骤如下:(1)提取特征:类似 Fast R-CNN,将整幅图像作为输入,采用 CNN 来对整幅图像进行操作,得到图像的特征层;(2)候选区域:利用 k 个不相同的矩形框(Anchor Box)在最后的卷积特征层上进行候选区域的提取,k 通常选取 9;(3)分类与回归:采用 object/non-object 来对每一个 Anchor Box 进行目标二分类,并且采用 k 个回归模型来对候选框的大小和位置进行微调,通常选用 9 个回归模型,这 9 个回归模型对应不同的 Anchor Box,最后对目标进行检测与分类。
当前 SOTA!平台收录 Faster R-CNN 共 16 个模型实现资源。
5、 OHEM
OHEM(online hard example mining)是一种在线难例挖掘算法,用于训练基于区域的ConvNet检测器。该算法是对SGD的简单修改,根据非均匀的非平稳分布对训练样本进行采样,该分布取决于所考虑的每个样本的当前损失。该方法利用特定于检测的问题结构,其中每个SGD mini-batch仅涉及一个或两个图像,但是由数千个候选样本组成。候选样本根据偏向于多种高损失实例的分布进行二次采样。梯度计算(反向传播)仍然高效,因为它仅使用所有候选的一小部分。作者将OHEM应用于标准的Fast R-CNN检测方法,展示了与基线训练算法相比的三个好处:(1)它消除了对基于区域的ConvNets中常用的几种启发式和超参数的需求;(2)它产生了平均精度的一致且显著的提升;(3)随着训练集变得越来越大和越来越困难,它的有效性也会增加。
OHEM的过程如下。对于SGD第t次迭代的输入图像,首先使用Conv网络计算一个Conv特征图。然后,RoI网络使用这个特征映射和所有输入RoI (R),而不是抽样的mini-batch,来执行正向传递。损失表示当前网络在每个RoI上的表现如何。Hard样本是通过按损耗对输入RoI进行排序来选择的,并以当前网络性能最差的B/N示例为例。大部分的正向计算是通过Conv特征在RoIs之间共享的,所以需要额外的计算来转发所有的RoIs是相对较小的。此外,由于只选择了少量的RoI来更新模型,所以后向传递并不比以前更昂贵。不过,高重叠的共同投资回报率很可能有相关的损失。此外,由于分辨率的差异,这些重叠的RoI可以投影到Conv特征图中的相同区域,从而导致损失的重复计算。为了处理这些冗余和相关区域,作者使用标准非最大抑制(NMS)来执行重复数据删除。给定RoI及其损失列表,NMS通过迭代选择损失最大的RoI,然后删除与所选区域有高度重叠的所有较低的RoI。使用宽松的IoU阈值0.7来抑制只有高度重叠的RoI。
如图6所示的架构,OHEM维护了两个RoI网络副本,其中一个是只读的。这意味着只读RoI网络(图6(a))仅为所有RoI的前向传播分配内存,而不是标准的RoI网络为前向和后向传播都分配内存。对于SGD迭代,给定卷积特征映射,只读RoI网络执行前向传播并计算所有输入RoI(R)的损失(图6,绿色箭头)。然后,Hard RoI采样模块选择输入到常规RoI网络的Hard样本(Rhard-sel)(图2(b),红色箭头))。该网络仅计算Rhard-sel的前向和后向通道,累积梯度并将它们传递给conv网络。在实践中,作者使用来自所有N个图像的所有RoI作为R,因此,只读RoI网络的有效批量大小是|R|
当前 SOTA!平台收录 OHEM 共 5 个模型实现资源。