基于Region Proposal的深度学习目标检测简述(一)

时间:2022-04-23
本文章向大家介绍基于Region Proposal的深度学习目标检测简述(一),主要内容包括其使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。

开篇需要跟大家道歉,一切忙没时间的理由都是借口,实际上就是偷懒了,这么久才更新,非常抱歉!

本篇争取以最简明的叙述,帮助大家理解下基于Region Proposal的目标检测的一系列工作,包括RCNN,Fast-RCNN,Faster-RCNN,这部分内容网上有很多博文,本文中会有很多图与其他博文相似或者雷同,如有侵权行为,请联系鄙人。讲得不好请大家海涵,若有疑点,大家可以阅读原论文。

目标检测是计算机视觉当中很重要的一个任务,它的目标不仅要识别出图像中包含物体的类别,还要对各个物体进行较精确的定位,定位的方式为给出一个包含该物体的框。见开篇图,取自论文RCNN。

那么怎样进行检测和识别呢,接来下就开始说RCNN。

RCNN:Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation,2014-CVPR

从本篇标题说起,整个RCNN系列是基于Region Proposal(可译为候选区域)做的。简单来说,这种做法就是先在图上提取很多个候选区域,然后判断这个区域是否包含物体以及包含什么物体,最后对包含物体的候选区域位置进行精修。

RCNN整个过程是分段的,可以分为以下几步:

1.提取候选区域

文中选取了Selective Search的方式对每张图提取了约2000个大小不一候选区域,为了使不同尺寸的候选区域可以喂给固定输入尺寸的网络提取特征,对这些候选区域都缩放到227,为避免缩放操作对识别检测精度的影响,作者对缩放过程做了优化,比如对候选区域边界扩展、warp等,并选取最好的缩放方式。

2.训练一个用于提特征的深度网络

在这一部分,首先基于ILVCR-2012中ImageNet所有数据训练一个1000分类的模型,作者尝试了VGG-16和AlexNet,单从精度方面VGG-16优于AlexNet,但由于VGG-16速度方面大幅落后于AlexNet,因此作者最终选用了AlexNet,我们简称为模型1。

其次,在上述模型1的基础上,基于在图像上提出的候选区域,筛选出符合条件的,对网络进行微调,即Fine-tune,稍后会说如何对候选框进行筛选。在微调的过程中,将上述模型1的最后一层输出类别个数改为要检测的目标类别个数加1,以VOC为例,最后微调的模型输出类别为20+1=21类,即物体类别数加上背景。

在微调模型的过程中,最关键的点在于候选区域的筛选和标签的获得,这里需要引入一个概念:IoU(intersection-over-union),IoU描述了两个框之间的重叠度,计算方法为两个框的交集除以两个框的并集,见下面示意图:

根据候选框和真实标定框(Ground Truth)之间的IoU值确定该候选框的标签,选取候选框与真实标定框IoU最大的标定框,若IoU大于0.5,标签即取为该真实框内物体的类别标签。如果候选框与任何一个真实标定框之间IoU均小于0.5,该候选框的标签即为背景。基于筛选出的包含各个类别和背景的候选区域对网络进行微调,即可得到最终用于提特征的深度网络。

3.提取候选区域特征,训练SVM分类器

最终对候选框类别的分类,作者单独训练了SVM,需要注意的是对于每个类别,均训练了一个二分类的SVM,比如对于狗,训练一个SVM来判断一个候选区域是或者不是狗。还是以VOC为例,则训练了20个SVM分类器。

在SVM的训练过程中,对候选区域的选择较为严格,正例为真实标定框,负例为与真实标定框IoU值小于0.3的候选框,将这些框过一遍上一步中微调好的模型,提取最后一层FC-4096维的特征向量,喂给这些框对应类别SVM进行训练。由于负例很多,作者采用了hard negative mining的方式。

4.利用回归的方式对框位置进行精修

在经过上述所有步骤得到最终框之后,为了使得框的位置更加精确,作者对框进行了线性回归。选取判定为该类别的框与标定框的IoU大于0.6的候选框,提取深度特征进行回归。

以上即为整个流程的训练过程。

整个test过程如下,在整幅图中利用Selective Search选取约2000个候选框,提取2000个框的深度特征,分别喂给各个类别的SVM分类器,判断是否包含该物体。由于一个物体可能有多个候选框,所以对同一类别的多个框做NMS(非极大值抑制),选取最优的框,将剩下的框分别进行框回归,得到最终结果。

RCNN存在的问题以及大部分人的疑问:

很多人对为什么单独训练SVM而不拿微调的模型直接得到分类结果存在疑问,作者也在论文附上了他们的解释,主要还是精度的问题,在微调模型的时候,对候选区域的选择较为宽松,防止过拟合,而且在SVM训练过程中作者采用了hard negative mining的方式,因此SVM的分类精度比微调后的深度模型softmax分类精度高的多。

当无法否认的是,RCNN存在很多缺点,比如速度慢,占用太多磁盘资源等,但也正是这些痛点,才催化出后来更优秀的算法。

由于篇幅有限,Fast RCNN以及Faster RCNN后续再说了,上述不好的地方或者没说明白的地方,欢迎留言批评指正。