DAB-DETR:动态锚框是 DETR 更好的查询方式
本文提出了 Box Agent 算法来处理在交叉注意力中预测 bounding box 时的信息不足问题,Box Agent 不仅加速了收敛时间,而且提高了检测性能。
Jul, 2023
本论文针对基于 Transformer 的物体检测算法,提出一种新的查询设计,纠正了目前算法中普遍存在的嵌入表达无法明确物体目标位置等缺陷,改为基于锚点查询方法,实现定位到特定区域及多目标检测的要求,并通过注意力变量方案来达到更好的算法性能。
Sep, 2021
我们提出了一种在 DETR-like 模型中处理定位问题的概念简单、高效、通用的框架 RefineBox。通过在训练良好的模型上添加插件而不是低效地设计新模型和从头训练,RefineBox 通过轻量级的细化网络来改进 DETR-like 检测器的输出。我们的方法易于实现和训练,因为它仅利用来自训练良好的检测模型的特征和预测框。在训练过程中,我们冻结了已训练的检测器,因此方法也具有高效性。此外,我们可以轻松将 RefineBox 推广到各种训练好的检测模型,而无需进行任何修改。实验证明了我们的 RefineBox 对于 DETR 及其代表性变种的有效性。我们的工作希望引起检测社区对当前 DETR-like 模型中的定位瓶颈的关注,并突出了 RefineBox 框架的潜力。代码和模型将在以下链接中公开提供: https://github.com/YiqunChen1999/RefineBox。
Jul, 2023
引入一种基于等级的 DETR 目标检测器 Rank-DETR,通过一系列等级化设计,包括等级化架构设计和损失函数设计,提高了准确性和定位精度,并成功应用于最新的 SOTA 方法,展示了其有效性。
Oct, 2023
我们引入了 Cascade-DETR 用于高质量的通用目标检测,通过提出级联注意力层来共同解决对多样领域的泛化和定位准确性问题,通过限制关注先前的目标框预测来显式地将对象中心信息集成到检测解码器中。为了进一步提高准确性,我们重新审视了查询的评分,不依赖于分类分数,而是预测查询的预期 IoU,从而显著提高了置信度的校准性,最后,我们引入了一个包含来自多个领域的 10 个数据集的通用目标检测基准,UDB10,在 COCO 上也取得了最新的进展,Cascade-DETR 在 UDB10 的所有数据集上都对基于 DETR 的检测器有了显著的改进,有些甚至超过 10 个 mAP,严格质量要求下的改进效果更加显著。
Jul, 2023
本论文介绍了一种改进的 DETR 检测器,它采用了 “简洁” 的设计,使用单尺度特征图和全局交叉注意力计算,并没有特定的局部约束,与之前基于 DETR 的主要检测器相比,没有重新引入多尺度和局部性的架构偏好。我们展示了两种简单的技术在简洁设计中的出人意料的有效性,以弥补多尺度特征图和局部性约束缺失的问题。第一种是将盒子到像素相对位置偏差(BoxRPB)项添加到交叉注意力公式中,它很好地指导每个查询与对应的对象区域相互关注,并提供了编码灵活性。第二种是基于遮蔽图像模型(MIM)的骨干预训练,有助于学习具有细粒度定位能力的表示,并且对于补救对多尺度特征图的依赖是至关重要的。通过结合这些技术和最新的训练方法和问题形成策略,改进的 “简洁” DETR 检测器在原始 DETR 检测器的基础上取得了显著的改进。通过利用 Object365 数据集进行预训练,使用 Swin-L 骨干网络达到了 63.9 的平均精度(mAP),与依赖于多尺度特征图和基于区域的特征提取的最先进的检测器性能相媲美。代码在此 https URL 中提供。
Aug, 2023
该论文介绍了一种条件交叉注意力机制,名为条件 DETR,以应对目标检测中 DETR 训练速度较慢的问题,并通过实验证明,相较于传统的 DETR,条件 DETR 在训练速度上提升了 10 倍,并可通过 https 链接获取源代码。
Aug, 2021
该研究提出了一种新方法,将目标检测作为直接集合预测问题进行处理,主要采用基于集合的全局损失和 Transformer 编码器 - 解码器架构构建 DETR 模型,能够高效地完成目标检测和全景分割任务,相较于许多现代检测器,DETR 模型概念简单且不需要专门的库。
May, 2020
Deformable DETR 提出了一种改进的 Transformer 注意力模块,只关注于围绕参考点的一小集采样点,能够更好地实现物体检测,尤其是在小物体上,并在 COCO 基准测试上得到了有效的实验结果。
Oct, 2020
我们提出了一种名为 DQ-DETR 的简单而有效的模型,其中包括三个不同的组件:分类计数模块、计数引导的特征增强和动态查询选择,以解决 DET-R 类型方法在检测微小对象方面的挑战。DQ-DETR 使用分类计数模块的预测和密度图动态调整物体查询的数量,并改善查询的位置信息。我们的模型 DQ-DETR 在以微小对象为主的 AI-TOD-V2 数据集上实现了 30.2% 的最优 mAP,优于以前基于 CNN 和 DET-R 类型方法的性能。
Apr, 2024