"); //-->
论文地址:https://arxiv.org/pdf/2207.05536.pdf
计算机视觉研究院专栏
作者:Edison_G
“从稀疏到密集”的范式使SSOD的流程复杂化,同时忽略了强大的直接、密集的教师监督
01
概述
02
新框架
Sparse-to-dense ParadigmTask FormulationSSOD的框架如下图(a)所示。Mean-Teacher方案是以前技术的常见做法,实现了端到端的训练,每次训练迭代后通过EMA从学生构建教师。教师将弱增强(例如翻转和调整大小)图像作为输入以生成伪标签,而学生则应用强增强(例如剪切、几何变换)进行训练。强大且适当的数据增强起着重要作用,它不仅增加了学生任务的难度并缓解了过度自信的问题,而且还使学生能够对各种输入扰动保持不变,从而实现鲁棒的表征学习。
Sparse-to-dense Baseline所有以前的SSOD方法都是基于稀疏到密集的机制,其中生成带有类别标签的稀疏伪框,以充当学生训练的基本事实。它带有基于置信度的阈值,其中仅保留具有高置信度(例如,大于0.9)的伪标签。这使得对未标记数据的前景监督比对标记数据的监督要稀疏得多,因此,类不平衡问题在SSOD中被放大,严重阻碍了检测器的训练。
为了缓解这个问题,研究者借鉴了之前工作的一些优势:Soft Teacher将混合比r设置为1/4,以便在每个训练批次中采样更多未标记数据,这使得未标记数据上的前景样本数接近标记数据;Unbiased Teacher用Focal loss代替了交叉熵损失,从而减少了简单示例的梯度贡献。
这两个改进,即适当的混合比r(1/4)和Focal loss,都被用于稀疏到稠密的基线和研究者的稠密到稠密的DTG 方法。因为老师只提供稀疏伪标签,进一步转化为对学生训练的密集监督,这些方法被称为“稀疏到密集”范式。理论上,新提出的SSOD方法独立于检测框架,可以适用于单级和两级检测器。为了与以前的作品进行公平比较,使用Faster RCNN作为默认检测框架。
03
实验
研究者在30k迭代处采用一个检查点进行分析。稀疏伪标签提供的学生训练标签和研究者密集的教师指导进行了精心比较。(a)sparse-to dense范式和研究者的dense-to-dense范式为学生样本带来了不同的训练标签。(b)老师给高质量的候选者分配更高的分数,从而保留精确的框。
一些可视化的例子来展示新提出的方法相对于传统的稀疏到密集范式的优势。(a-b)对于相同的学生提案,新的密集到密集范式和传统的稀疏到密集范式将分配不同的标签。很明显,新的密集到密集范式可以分配更精确和合理的训练标签。(c)教师比学生更擅长对集群候选者的关系建模。
The summary of transformations used in weak and strong augmentation
今天是建军节,用一张应景的demo结束今天的讲解。
*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。