新闻  |   论坛  |   博客  |   在线研讨会
目标检测新方法:Copy-Paste新方式解决拥挤的目标检测
CV研究院 | 2022-12-22 19:44:52    阅读:642   发布文章

文章地址:https://arxiv.org/pdf/2211.12110.pdf

01

概述

在今天分享中,研究者首先强调了拥挤问题的两个主要影响:1)IoU置信度相关干扰(ICD)和2)混淆重复数据消除(CDD)。然后,研究者从数据扩充的角度探索破解这些。

首先,针对拥挤的场景提出了一种特殊的复制粘贴方案。基于此操作,研究者首先设计了一种“共识学习”策略,以进一步抵抗ICD问题,然后发现粘贴过程自然地揭示了场景中目标的伪“深度”,这可能用于缓解CDD困境。这两种方法都源自对复制粘贴的神奇使用,无需额外的处理。

实验表明,在典型的拥挤检测任务中,新提出方法可以轻松地将最先进的检测器提高2%以上。此外,这项工作可以在拥挤场景中胜过现有的数据增强策略。


02

背景

目标检测的任务已经被仔细研究了相当长的时间。在深度学习时代,近年来,已经提出了许多精心设计的方法,并将检测性能提高到了令人惊讶的高水平。尽管如此,仍然存在许多根本性问题没有得到根本解决。其中之一是“拥挤问题”,这通常表示属于同一类别的目标高度重叠在一起的现象。在几何方式中,基本困难源于2D空间的语义歧义。如下图所示,在我们的3D世界中,每个体素都有其“独特的语义”,并位于“特定目标”上。然而,投影到2D平面后,一个像素可能落在几个碰撞的对象上。在将概念从“像素”演变为“框”之后,拥挤场景中的语义模糊导致了重叠的概念。

图片

为了探究这个问题的影响,研究者现在深入到检测范式的本质。通常,目标检测器读取图像并输出一组边界框,每个边界框与置信度分数相关。对于理想执行的检测器,得分值应反映预测框与GT的重叠程度。换句话说,这两个框之间的交集(IoU)应与置信度得分呈正相关。在下图中可视化了与IoU相关的得分的平均值和标准差后,结果表明,即使是像(Mask r-cnn)这样的现成检测器,这种正相关也会逐渐受到拥挤度增加的干扰。

图片

这项实验研究清楚地表明了当前检测算法在面对超重重叠时的困难。我们将这种效应体现为IoU置信度相关干扰(ICD)。另一方面,典型的检测管道通常以重复数据消除模块结束,例如,广泛采用的非极大抑制(NMS)。由于前面提到的2D语义模糊,这些模块经常被严重重叠的预测所混淆,这导致在人群中严重缺失。我们将这种效果称为混乱的重复数据消除(CDD)。


03

新框架

Copy-Paste Augmentation:

Copy-Paste增强技术于2017年首次提出。通过从源图像中剪切目标块并粘贴到目标图像,可以轻松获取组合数量的合成训练数据,并显著提高检测/分割性能。这一惊人的魔力随后被后续作品所验证,并通过上下文改编进一步完善了该方法。Ghiasi等人声称只要训练足够,简单的Copy-Paste可以带来相当大的改进。他们的实验进一步表明了这种增强策略在实例级图像理解上的潜力。需要注意的是Copy-Paste的最初动机是使样本空间多样化,特别是对于稀有类别或缓解复杂的掩模标签。然而,研究者利用这种操作来精确地解决拥挤问题。尽管在以前的工作中有过简单的实践,但从未系统地设计和研究过这种策略在处理拥挤场景方面的实际效果。

Consensus Learning:

通过Copy-Paste工具包,使用专门的策略来抵抗ICD问题,从而增强检测器训练。考虑到上图所示的观察结果,预测分数的不稳定性来源于拥挤,一种新的解决方案是将拥挤环境中的一个目标的分数(被其他目标覆盖)与未覆盖时的分数对齐。由于Copy-Paste方法可以很容易地生成这种类型的目标对,其中两个相同的目标位于不同的环境中。下图说明了研究者的想法。

图片

在前面的数据扩充之后,研究者选择了一组由其他目标覆盖的目标。然后,将与中的目标patch相同的目标patch重新粘贴到图像上,而不进行覆盖,从而构建另一组。在训练期间,强制执行每个目标的预测分数分布与其对应的保持一致。将这一过程称为共识学习,通过对每一对中的“达成共识”进行类比。具体来说,具体来说,让是与匹配的建议集,是匹配的建议集,首先计算每个目标得分的平均值和标准差:

图片

Analyze the IoU-Confidence Disturbances:

现在,分析了方法在减轻上述ICD问题上的有效性。为了重新审视提出的原始动机,在下图中绘制了分数的标准差(STD)。

图片

清楚地表明,用提出的Crowdedness-oriented Copy-Paste(CCP)训练的模型的 STDs明显低于基线模型(BL),并且通过提高拥挤程度(从图(a)到(d))。其次,虽然CCP和CCP+CL的曲线似乎没有明显的区别,但通过计算它们的平均std(图中的4个直方图),研究者发现后者的值实际上低于前者。

Alleviate the Confused De-Duplications:

增强策略有一个自然的副产品:对于粘贴的这些重叠目标,相对的“深度顺序”是先验的。换句话说,我们知道哪个在前面,哪个在后面。

基本上,2D空间中的歧义是由真实(3D)世界中缺少一维造成的。从这个角度来看,深度顺序可以被视为额外第三维度的一些薄弱知识,这有助于减轻模糊性。作为一种可行的实践,在这项工作中利用深度顺序信息来解决混淆的重复数据消除(CDD)问题。

图片

引入一个名为“overlay depth”(OD)的变量,该变量描述了目标在视觉上被其他目标覆盖的程度。上图显示了计算OD的过程。首先假设一个目标的覆盖深度等于1.0,如果没有其他目标覆盖它。设是由目标覆盖的目标的区域,表示区域的大小。


04

实验及可视化

Results on CrowdHuman val set图片

图片OD prediction可视化


*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。

参与讨论
登录后参与讨论
推荐文章
最近访客