ICCVAug, 2023

DETR 不需要多尺度或局部设计

TL;DR本论文介绍了一种改进的 DETR 检测器,它采用了 “简洁” 的设计,使用单尺度特征图和全局交叉注意力计算,并没有特定的局部约束,与之前基于 DETR 的主要检测器相比,没有重新引入多尺度和局部性的架构偏好。我们展示了两种简单的技术在简洁设计中的出人意料的有效性,以弥补多尺度特征图和局部性约束缺失的问题。第一种是将盒子到像素相对位置偏差(BoxRPB)项添加到交叉注意力公式中,它很好地指导每个查询与对应的对象区域相互关注,并提供了编码灵活性。第二种是基于遮蔽图像模型(MIM)的骨干预训练,有助于学习具有细粒度定位能力的表示,并且对于补救对多尺度特征图的依赖是至关重要的。通过结合这些技术和最新的训练方法和问题形成策略,改进的 “简洁” DETR 检测器在原始 DETR 检测器的基础上取得了显著的改进。通过利用 Object365 数据集进行预训练,使用 Swin-L 骨干网络达到了 63.9 的平均精度(mAP),与依赖于多尺度特征图和基于区域的特征提取的最先进的检测器性能相媲美。代码在此 https URL 中提供。