Box-DETR: 理解并且边界化条件空间查询

Jul, 2023

Box-DETR: 理解并且边界化条件空间查询

Box-DETR: Understanding and Boxing Conditional Spatial Queries

Wenze Liu, Hao Lu, Yuliang Liu, Zhiguo Cao

TL;DR本文提出了 Box Agent 算法来处理在交叉注意力中预测 bounding box 时的信息不足问题，Box Agent 不仅加速了收敛时间，而且提高了检测性能。

Abstract

conditional spatial queries are recently introduced into DEtection TRansformer (detr) to accelerate convergence. In DAB-detr, such queries

detr dab-detr conditional spatial queries box agent detection performance

发现论文，激发创造

DAB-DETR：动态锚框是 DETR 更好的查询方式

本文提出了一种使用动态锚框的新型查询公式，用于 DETR，并对查询在 DETR 中的作用提供了更深入的理解。通过在 Transformer 解码器中直接使用盒子坐标作为查询，动态地逐层更新它们，这种新公式不仅通过使用显式位置先验来提高查询与特征相似度，消除 DETR 中的慢训练收敛问题，而且还允许我们使用盒子宽度和高度信息调制位置注意力映射。

Jan, 2022

快速训练收敛的条件 DETR

该论文介绍了一种条件交叉注意力机制，名为条件 DETR，以应对目标检测中 DETR 训练速度较慢的问题，并通过实验证明，相较于传统的 DETR，条件 DETR 在训练速度上提升了 10 倍，并可通过 https 链接获取源代码。

Aug, 2021

优化已训练的 DETR 模型的边界框精炼技术

我们提出了一种在 DETR-like 模型中处理定位问题的概念简单、高效、通用的框架 RefineBox。通过在训练良好的模型上添加插件而不是低效地设计新模型和从头训练，RefineBox 通过轻量级的细化网络来改进 DETR-like 检测器的输出。我们的方法易于实现和训练，因为它仅利用来自训练良好的检测模型的特征和预测框。在训练过程中，我们冻结了已训练的检测器，因此方法也具有高效性。此外，我们可以轻松将 RefineBox 推广到各种训练好的检测模型，而无需进行任何修改。实验证明了我们的 RefineBox 对于 DETR 及其代表性变种的有效性。我们的工作希望引起检测社区对当前 DETR-like 模型中的定位瓶颈的关注，并突出了 RefineBox 框架的潜力。代码和模型将在以下链接中公开提供: https://github.com/YiqunChen1999/RefineBox。

Jul, 2023

Anchor DETR：基于 Transformer 的目标检测中的查询设计

本论文针对基于 Transformer 的物体检测算法，提出一种新的查询设计，纠正了目前算法中普遍存在的嵌入表达无法明确物体目标位置等缺陷，改为基于锚点查询方法，实现定位到特定区域及多目标检测的要求，并通过注意力变量方案来达到更好的算法性能。

Sep, 2021

解耦的 DETR：空间分离定位和分类以改善端到端对象检测

通过空间解耦 DETR（SD-DETR）设计方案和任务感知查询生成模块，以及通过引入对齐损失的新颖设计，我们在 MSCOCO 数据集上展示了在目标检测任务中 DETR 性能的显著提升，例如我们将 Conditional DETR 的性能提高了 4.5 AP。

Oct, 2023

SAP-DETR：基于关键点和查询的变换器探测器，缩短模型收敛时间的差距

提出基于显著点的 DETR 模型以解决传统模型中参考点集中问题，显著点作为检测器，具有更强的区分能力和更快的收敛速度，实验证明其性能优于 SOTA 方法。

Nov, 2022

DETR 不需要多尺度或局部设计

本论文介绍了一种改进的 DETR 检测器，它采用了 “简洁” 的设计，使用单尺度特征图和全局交叉注意力计算，并没有特定的局部约束，与之前基于 DETR 的主要检测器相比，没有重新引入多尺度和局部性的架构偏好。我们展示了两种简单的技术在简洁设计中的出人意料的有效性，以弥补多尺度特征图和局部性约束缺失的问题。第一种是将盒子到像素相对位置偏差（BoxRPB）项添加到交叉注意力公式中，它很好地指导每个查询与对应的对象区域相互关注，并提供了编码灵活性。第二种是基于遮蔽图像模型（MIM）的骨干预训练，有助于学习具有细粒度定位能力的表示，并且对于补救对多尺度特征图的依赖是至关重要的。通过结合这些技术和最新的训练方法和问题形成策略，改进的 “简洁” DETR 检测器在原始 DETR 检测器的基础上取得了显著的改进。通过利用 Object365 数据集进行预训练，使用 Swin-L 骨干网络达到了 63.9 的平均精度（mAP），与依赖于多尺度特征图和基于区域的特征提取的最先进的检测器性能相媲美。代码在此 https URL 中提供。

Aug, 2023

BoxeR：用于 2D 和 3D Transformer 的 Box-Attention

本文提出了一种名为 Box-attention 的简单注意机制，通过将感兴趣的格子特征采样自不同盒子进行空间交互，从而改进了变形器在多个视觉任务上的学习能力。具体而言，我们提出了 Box Transformer，通过预测它们从输入特征图上的参考窗口的变换，参照一组盒子。Box Transformer 通过考虑其格子结构对这些盒子进行注意力加权。在 box-attention 模块中学习旋转不变性后，BoxeR-3D 能够从鸟瞰图平面生成具有辨别性的信息以进行端到端的 3D 物体检测。实验结果表明，BoxeR-2D 在 COCO 检测和实例分割上实现了最新的结果。此外，BoxeR-3D 也在端到端的 3D 物体检测领域取得了很好的表现，而无需任何特定类别的优化。

Nov, 2021

DPText-DETR: 基于 Transformer 与动态点的更好的场景文本检测

本文提出了一种 DPText-DETR 算法，利用明确的点坐标直接生成位置查询，并动态地以渐进的方式更新它们。同时，提出了一种增强的分解自我注意力模块，为每个实例提供具有圆形形状指导的点查询，以及一种简单而有效的位置标签形式来解决之前形式的副作用，在 500 个手动标记的图像上进行了实验证明了本方法在各种基准测试中的高训练效率、鲁棒性和最先进性能。

Jul, 2022

空间调制的协同注意力使 DETR 快速收敛

本文提出了一种简单而有效的机制 —— 空间调制协同注意（SMCA），在检测变压器（DETR）中进行回归感知协同，以提高其收敛速度，并将多头和尺度选择注意设计集成到 SMCA 中，通过在 COCO 数据集上进行大量的消融研究，验证了 SMCA 的有效性。

Jan, 2021