技术频道

娓娓工业
您现在的位置: 中国传动网 > > > 基于关键点检测二阶段目标检测方法研究

基于关键点检测二阶段目标检测方法研究

时间:2021-12-15 23:15:32来源:王宏任 陈世峰

导语:​卷积神经网络被广泛应用于目标检测领域。该文提出一种新的无锚框二阶段目标检测算法:以 CornerNet 方法为基础,借助角点提取候选区域,并增加中心池化层来增强物体中心区域特征,通过判断中心关键点是否落在中心区域,可以过滤掉大量的误检候选框。随后,将保留的候选框送到多元分类器进行预测和回归,获取最终的检测结果。实验结果表明,该方法在 MS-COCO 数据集上能够取得 46.7% 的检测精度,与其他同类算法相比具有较强的竞争力。与原始的 CornerNet 算法相比,该方法在精度上有6.2% 的提升,尤其对于形状特殊的物体,精度提升更加明显。

  1 引言

必威bet体育  目标检测是计算机视觉中很常见的任务。根据有无提取候选区域 (Region Proposal),目标检测领域的检测方法通常分为一阶段 (One-stage) 检测网络和二阶段 (Two-stage) 检测网络。其中,一阶段检测方法直接回归物体的类别概率和位置坐标值。常见的一阶段算法包括:YOLOv1、YOLOv2、YOLOv3、SSD、DSSD 和 Retina-Net。二阶段检测方法的任务包括第一阶段提取候选区域以及第二阶段将候选区域送到分类器进行分类与检测。常见的二阶段算法包括:R-CNN、SPP-Net、Fast R-CNN、Faster R-CNN、Mask R-CNN 和Cascade R-CNN。与一阶段检测网络相比,二阶段检测网络的检测精度更高,但速度慢于一阶段检测网络。

必威bet体育  另外,根据是否利用锚框 (Anchor) 提取候选目标框,目标检测框架也可分为基于锚框的方法 (Anchor-based)、基于无锚框的方法 (Anchorfree) 以及两者融合类。其中,基于锚框类算法有 Fast R-CNN、SSD、YOLOv2 和 YOLOv3;基于无锚框类算法有 CornerNet、ExtremeNet、CenterNet 和FCOS;融合基于锚框和基于无锚框分支的方法有 FSAF、GA- RPN 和 SFace。

  目前, 所有的主流探测器, 如 Faster R-CNN、SSD、YOLOv2 和 YOLOv3 都依赖一组预先定义的锚框。其中,人们认为锚框的使用是检测器成功的关键。尽管这些主流探测器取得了巨大的成功,但基于锚框方法仍存在一些缺点:(1) 即使经过仔细的设计,但由于锚框的尺度和长宽比是预先设定的,检测器在处理形状变化较大的候选物体时也会遇到困难, 尤其是对于小物体,这无疑阻碍了检测器的泛化能力;(2) 为了达到较高的召回率,需要在输入图像上密集放置锚框 ( 如对于短边为 800 的图像,在特征金字塔网络 (FPN) 中放置超过180k 的锚框 ),但大多数锚框在训练中被标记为负样本,而过多的负样本会加剧训练中正负样本之间的不平衡;(3) 锚框涉及复杂的计算,如计算与真实边框 (Ground-truth) 的重叠度(Intersection over Union,IoU)。

  为了克服基于锚框方法的缺点,CornerNet 采用基于关键点检测角点提取候选区域的方法:利用单个卷积神经网络来检测一个以左上角和右下角为一对关键点的目标包围框,通过将目标作为成对的关键点进行检测,消除了以往检测器通常需要人为设计锚框的需要。然而,CornerNet 也存在一些问题: (1)CornerNet 对物体内部信息的感知能力相对较弱,制约了CornerNet 的性能。(2) 在进行关键点配对时,CornerNet 认为属于同一类别的关键角点间应尽可能靠近,属于不同类别的关键角点间应尽可能远离。但在实验过程中发现,通过计算左上角点的嵌入向量及右下角点的嵌入向量间的距离来决定是否将两个点进行组合,经常会发生配对错误的情况。(3) 采用关键点配对的方式确定一个目标的候选区域,会产生大量误检目标的候选区域,这样不仅会使检测精度降低而且会花费较长时间。本文提出一种新的无锚框二阶段目标检测算法对以上 3 个问题进行优化。

  2 基于关键点目标检测方法

  本文将 CornerNet 作为基准,提出一种基于无锚框 3 个关键点检测的二阶段目标检测网络方法。如图 1 所示:第一阶段采用基于无锚框关键点检测的方法分别检测角点以及中心关键点,同时判断中心点是否落在中心区域以进行误检候选区域的剔除,即提取候选区域;第二阶段将第一阶段过滤后保留下来的候选区域送到多元分类器中进行分类与检测。

基于关键点检测的二阶段目标检测方法网络框架.png

图 1 基于关键点检测的二阶段目标检测方法网络框架

  2.1 基于无锚框 3 个关键点检测

  为了检测角点,本文先采用基于 CornerNet 关键点检测的方法来定位左上以及右下角点;然后,通过角点池化生成左上角以及右下角两个热图来代表不同类别关键点的位置;最后, 进行角点关键点的偏移修正。

必威bet体育  另外,为了加强网络对物体内部信息的感知能力,本文增加了中心关键点的检测分支,并采用中心池化操作加强中心点的特征。同时定义了物体中心度的概念——设定中心度大于0.7 时,可认为中心关键点落在中心区域,很好地解决了不同尺寸物体中心区域的判定。最终,只有当物体的中心点落在预测框的中心区域才进行保留,否则去除。需要说明的是,当中心关键点同时落在多个不同的预测框中时,取中心度最大的那个预测框予以保留,并剔除多余的预测框,以减少误检框出现的概率。具体如图 2 所示。

  

利用中心关键点过滤误检候选区域.png

必威bet体育  图 2 利用中心关键点过滤误检候选区域

必威bet体育  2.1.1 角点关键点检测

  关于角点关键点的检测,本文借鉴 CornerNet 来定位被检对象的两个角点关键点——分别位于其左上角和右下角。计算 3 个热图 ( 即左上的热图和右下的热图以及中心点的热图, 热图上的每个值表示一个角的关键点出现在相应位置的概率), 其分辨率变成原始图像分辨率的 1/4。其中,热图有两个损失,符号1.png  用来定位热图上的左上角关键点,符号2.png  用来定位热图上的右下角关键点和偏移损失,具体如公式 (1) ~ (3)。在计算热图之后,从所有热图中提取固定数量的关键点 ( 左上角 k 个,右下角 k 个 ),每个角点的关键点都配有一个类标签。

 公式1.png 

(1)

  其中,C 为目标的类别;H、W 分别为热图的高和宽;pcij 为预测热图中 c 类在位置 (i, j) 的得分;ycij 为加了非归一化高斯热图;N 为图像中物体的数量;α 和 β 为控制每个点贡献的超参数。

 公式2.png     

(2)

公式3.png 

(3)

其中,OK是偏移量; 公式9.png 表示在取整计算时丢失的精度信息;xk 和 yk 为角 k 的 x 和 y 坐标;(xk , yk)  在映射到热图中为符号3.png,n 为下采样值,在本文中为 4; 符号10.jpg表示向下取整。特别地,预测一组由所有类别的左上角共享的偏移量,以及另一组由右下角共享的偏量,在训练时采用 Smooth L1 Loss。

  在进行关键点配对时,CornerNet 认为属于同一类别的关键角点间应尽可能靠近,属于不同类别的关键角点间应尽可能远离。但在实验的过程中,配对关键点时可能会出现错误, 同时为了充分利用物体的内部信息,本文将这一机制舍弃,留给二阶段中的多元分类器来完成关键点的配对问题。

  2.1.2 中心度——中心区域的定义

必威bet体育  为了有效剔除大量误检候选区域,本文通过判断中心关键点是否落在目标框的中心区域的方法来解决此问题。由于每个边界框的大小不同,所以中心区域不能设置为一个固定的数值。本文提出尺度可调节的中心区域定义法如公式 (4) 所示,引入新的定量指标中心度 (Centrality) 概念。

 公式4.png 

(4)

必威bet体育  其中,l 为计算中心点到预测框左边的距离;r 为中心点到右侧的距离;t 为中心点到上边框的距离;b 为中心点到下边框的距离,具体如图 3 所示。

  2.1.3 中心池化

  

中心度计算.png

必威bet体育  图 3 中心度计算

  中心池化操作参考 CornerNet 的两个角点池化模块—— 左上角点池化和右下角点池化,分别预测左上角关键点和右下角关键点。每个角点模块有 2 个输入特征图,相应图的宽、高分别用 W 和 H 表示。假设要对特征图上 (i, j) 点做左上角的角点池化,即计算(i, j) 到(i, H) 的最大值( 最大池化),同时计算(i,j) 到(W, j) 的最大值( 最大池化),随后将这两个最大值相加得到 (i, j) 点的值。右下角的角点池化操作类似,只不过计算最大值变成从 (0, j) 到 (i, j) 和从 (i, 0) 到 (i, j)。

必威bet体育  物体的几何中心不一定具有很明显的视觉特征,如人类头部包含强烈的视觉特征,但中心关键点往往在人体的中间。为了解决这个问题,本文采用中心池化来捕捉更丰富和可识别的视觉特征。图 4 为中心池化的原理:特征提取网络输出一幅特征图 ( 宽、高分别用 W 和 H 表示 ),中心池化可通过不同方向上的角点池化的组合实现。其中,水平方向上取最大值的操作可通过左边池化 (Left Pooling) 和右边池化 (Right Pooling) 串联实现。同理,垂直方向上取最大值的操作可通过上部池化 (Top Pooling) 和下部池化 (Bottom Pooling) 串联实现。

中心池化结构示意图.png

必威bet体育  图 4 中心池化结构示意图

  

本文方法和最先进的检测框架在 COCO test-2017 上的精度对比.png

  注:AP50 和 AP75 为在单个 IoU 阈值 0.50 和 0.75 时的精度;APs、APm、APl 分别为小目标、中目标和大目标的检测精度。下同表 2、表 4

  表 1 本文方法和最先进的检测框架在 COCO test-2017 上的精度对比

  为了判断特征图中的某个像素是否为中心关键点,需要通过中心池化找到其在水平方向和垂直方向的最大值,且将二者相加,这样有助于更好地检测中心关键点。具体操作为特征图的两个分支分别经过一个 3×3 卷积层、BN(Batch Normalization) 层以及一个 ReLU 激活函数,做水平方向和垂直方向的角点池化,最后再相加。假设对图上 (i, j) 点在水平方向做右边池化,即计算(i, j) 到(W, j) 的最大值( 最大池化); 同理,计算左边池化,再将二者串联相加获得 (i, j) 点水平方向的值。同理,找到垂直方向,最后将水平与垂直方向的值进行相加获得 (i, j) 点的值。

  2.2 分类

  采用关键点检测的方式提取候选区域,虽然能够解决需人为设定锚框大小以及长宽比等超参数的问题,大大提高检测的灵活度,但也因此带来了两个问题:大量的误检候选区域以及过滤掉这些误检区域而带来的高计算成本。基于此,本文采取的解决方案主要包括两个步骤:

必威bet体育  (1) 先判断角点与中心点是否属于同一类别,再通过计算中心点的中心度是否大于 0.7 来过滤掉大量错误的候选区域。

  (2) 将第一步筛选后存留的候选区域送到之后的多元分类器,对仍存在多个类别的目标分数进行排序。其中,采用RoIAlign 提取每个候选区域上的特征,并通过 256×7×7 卷积层,得到一个表示类别的向量,为每一个存活的候选区域建立单独的分类器。损失函数 Lclass 为 Focal Loss:

公式5.png  

(5)

其中,M 和 N 分别为保留的候选区域数量和其中的正样本数量;C 为数据集中与之交叉的类别数;IoUnc 为第 n 个候选区域与第 c 个类别中所有真实框之间的最大 IoU 值;τ 为IoU 的阈值 ( 设为 0.7);  符号4.png 为第 n 个目标中第 c 个类别的分类分数; 为平滑损失函数的超参数 ( 设为 2)。

  3 实验

  3.1 数据集与评估指标

  MS-COCO 是目前最流行的目标检测基准数据集之一,总共包含 12 万张图片,超过 150 万个边界框,覆盖 80 个对象类别,是一个非常具有挑战性的数据集。本文使用trainval35k 来训练基于关键点检测二阶段目标检测网络模型, 并在 MS-COCO 数据集上进行评估。其中,trainval35k 是由80k 张训练图片和 35k 张验证图像的子集组成的联合集。  

  本文使用 MS-COCO 中定义的平均精度 (Average Precision,AP) 作为度量来表征网络模型的性能以及其他竞争对手的性能。单个 IoU 阈值从 0.5 到 0.95 每隔 0.05 记录一次精度 AP,最后取平均值 ( 即 0.5:0.05:0.95) 。实验中也记录了一些其他重要指标,如 AP50 和 AP75 为在单个 IoU 阈值 0.50 和 0.75 下计算精度,APs、APm 和 APl 为在不同的目标尺度下计算精度 ( 小尺寸物体面积小于 32×32,中尺寸物体面积大于 32×32 小于 96×96,大尺寸物体面积大于 96×96)。所有的度量都是在每个测试图像上允许最多保留100 个候选区域计算的。

  3.2 网格的训练和测试

  本文以 CornerNet 作为基线,部分参考了CornerNet、FCOS 的代码,特征提取网络仍然延用 CornerNet 中采用的52/104 层的 Hourglass 网络,并借助 Pytorch 实现算法。

必威bet体育  网络从零开始训练,输入图像的分辨率为 511×511,输出热图的分辨率为 128×128。利用 Adam 来优化训练损失, 整个网络的损失函数 L 为:

 公式6.png 

(6)

  其中,符号5.png符号6.png采用的是 Focal Loss,分别用于训练网络检测角点和中心关键点;符号7.png符号8.png采用 Smooth L1 Loss 分别训练网络预测角点和中心关键点的偏移量。在8 张 NVIDIA 2080-Ti 上进行模型训练,batch size 大小设为 48( 每张卡分配 6 个样本 ),前 250k 次迭代学习率设为2.5×10- 4,接下来的 50k 次迭代减小学习率到 2.5×10 - 5。训练 Hourglass-104、Hourglass-52 的时间分别是 9 d 和 5 d。

  4 结果与讨论

必威bet体育  本文在通用检测数据集 COCO test-2017 上对近年来比较常见的基于锚框与基于无锚框的检测框架进行精度测试,结果如表 1 所示。从表 1 可知,本文基于无锚框关键点检测的二阶段方法比基于锚框的二阶段方法 YOLOv4 精度提升 3.2%;比基于无锚框的一阶段方法如 FCOS、CenterNet 精度分别提升 5.2% 和 1.8%,比 CornerNet 精度提升 6.2%。其中,在检测尺寸以及长宽比特殊的物体时,检测精度提升更明显。这表明,基于无锚框方法进行提取候选区域更具优势。在单尺度测试时,将原始分辨率的图像和水平翻转的图像输入网络中,而在多尺度测试时,将原始图像的分辨率分别设置为 0.6、1、1.2、1.5 和 1.8 倍。此外,在单尺度评价和多尺度评价中都增加了翻转变量。在多尺度评价时,将所有尺度的预测结果 ( 包括翻转变量 ) 融合到最终结果中,然后使用soft-NMS 来抑制冗余的限定框,并保留 100 个得分最高的限定框作为最终评价,结果如表 2 所示。

 多尺度测试.png 

表 2 多尺度测试

必威bet体育  将 3 种不同检测框架与本研究检测方法在 COCO 数据集上进行召回率评估,即记录不同长宽比和不同大小目标的平均召回率 (Average Recall,AR),结果如表 3 所示。

基于锚框和无锚框检测方法的平均召回率 (AR) 比较.png

必威bet体育注:X 为 ResNeXt[29];AR1+、AR2+、AR3+、AR4+ 分别表示边界框面积在(962, 2002]、(2002, 3002]、(3002, 4002]、(4002, ∞ ) 时的召回率; AR5∶ 1、AR6∶ 1、AR7∶ 1、AR8∶1 分别表示物体长宽比为 5 ∶ 1、6 ∶ 1、7 ∶ 1、8 ∶ 1 时的召回率

  表 3 基于锚框和无锚框检测方法的平均召回率 (AR) 比较

  通常来说,在物体非常大时,如尺寸大于 (400×400, ∞ ), 更容易被检测到。与其他基于无锚框的方法相比,基于锚框的方法 Faster R-CNN 并没有达到期望的较高召回率。但当物体长宽比比较特殊 ( 如 5 ∶ 1 和 8 ∶ 1) 时,基于无锚框的检测方法比基于锚框的方法表现更加优异。这是因为基于无锚框的检测方法摆脱了人为设置锚框长宽比的束缚。本文方法继承了FCOS 和 CornerNet 的优点,使目标定位更灵活,特别是长宽比例特殊的物体。

  本文在 CornerNet 算法基础上加上中心关键点检测分支与原始算法进行对比来进行消融实验,其中特征提取网络采用Hourglass-52,结果如表 4 所示。分析数据可以看到,当引入中心关键点检测分支后精度提升 3%,小目标检测精度提升5.8%,大目标检测精度提升 3.6%。表明引入中心关键点检测分支后,小目标误检候选区域去除得更多。这是因为从概率上讲,小目标由于面积小更容易确定其中心点,因此那些误检候选区域不在中心点附近的概率更大。

添加中心关键点分支的消融实验.png

  表 4 添加中心关键点分支的消融实验

  图 5 为基于锚框方法 Faster R-CNN 与基于无锚框关键点检测的方法进行检测任务的可视化对比结果。可以看到,本文研究方法无需人为设置锚框大小及长宽比,对于检测小目标以及形状特殊的物体具有更好的检测效果。

微信图片_20211216161256.png

图 5 基于锚框方法 Faster R-CNN 与基于无锚框关键点检测的方法进行检测任务的可视化对比结果

  5 结论

必威bet体育  本文提出了基于无锚框二阶段目标检测框架,即分别提取角点关键点以及物体中心关键点,并将它们组合成候选区域。通过判断物体中心点是否落在中心区域来过滤掉大量误检候选区域,同时舍弃了 CornerNet 中采取的角点关键点结合的方式,采用二阶段的方式,将保留下来的候选区域送入多元分类器进行分类与回归。

  通过以上两个阶段,本文网络模型检测的查全率和准确率均有显著提高,其结果也优于大多数现有目标检测方法,在召回率与检测精度上都取得了良好的表现。最重要的是,基于无锚框的方法在提取候选区域时更加灵活,克服了基于锚框方法需人为设置锚框超参数的缺点。


作者:王宏任 1,2 陈世峰 1

       1 中国科学院深圳先进技术研究院

  2 中国科学院大学深圳先进技术学院转载自《集成技术》



标签:

点赞必威bet体育

分享到:

上一篇:

下一篇:

中国传动网版权与免责声明:凡本网注明[来源:中国传动网]的所有文字、图片、音视和视频文件,版权均为中国传动网(nouslesjeunes.com)独家所有。如需转载请与0755-82949061联系。任何媒体、网站或个人转载使用时须注明来源“中国传动网”,违反者本网将追究其法律责任。

必威bet体育本网转载并注明其他来源的稿件,均来自互联网或业内投稿人士,版权属于原版权人。转载请保留稿件来源及作者,禁止擅自篡改,违者自负版权法律责任。

相关资讯

网站简介|会员服务|联系方式|帮助信息|版权信息|网站地图|友情链接|法律支持|意见反馈|sitemap

必威bet体育中国传动网-工业自动化与智能制造的全媒体“互联网+”创新服务平台

Chuandong.com Copyright ©2005 - 2022 ,All Rights Reserved 版权所有 | 营业执照证书 | |