DETR++：驯服您的多尺度检测 Transformer

CVPRJun, 2022

DETR++：驯服您的多尺度检测 Transformer

DETR++: Taming Your Multi-Scale Detection Transformer

Chi Zhang, Lijuan Liu, Xiaoxue Zang, Frederick Liu, Hao Zhang...

TL;DR本文介绍了作者提出的一个新的检测架构 DETR++，在目标检测方面的性能上优于现有基线，并提出了一种 BiFPN 方法，最大限度地提高了多尺度特征的准确性。

Abstract

convolutional neural networks (CNN) have dominated the field of detection ever since the success of AlexNet in ImageNet classification [12]. With the sweeping reform of →

convolutional neural networks transformers detr bi-directional feature pyramid detection

发现论文，激发创造

DETR 不需要多尺度或局部设计

本论文介绍了一种改进的 DETR 检测器，它采用了 “简洁” 的设计，使用单尺度特征图和全局交叉注意力计算，并没有特定的局部约束，与之前基于 DETR 的主要检测器相比，没有重新引入多尺度和局部性的架构偏好。我们展示了两种简单的技术在简洁设计中的出人意料的有效性，以弥补多尺度特征图和局部性约束缺失的问题。第一种是将盒子到像素相对位置偏差（BoxRPB）项添加到交叉注意力公式中，它很好地指导每个查询与对应的对象区域相互关注，并提供了编码灵活性。第二种是基于遮蔽图像模型（MIM）的骨干预训练，有助于学习具有细粒度定位能力的表示，并且对于补救对多尺度特征图的依赖是至关重要的。通过结合这些技术和最新的训练方法和问题形成策略，改进的 “简洁” DETR 检测器在原始 DETR 检测器的基础上取得了显著的改进。通过利用 Object365 数据集进行预训练，使用 Swin-L 骨干网络达到了 63.9 的平均精度（mAP），与依赖于多尺度特征图和基于区域的特征提取的最先进的检测器性能相媲美。代码在此 https URL 中提供。

Aug, 2023

通过信息增强和自适应特征融合的方式，在 DETR 中进行小物体检测

本研究针对小物体检测中 RT-DETR 模型的准确性不足提出了两个关键改进：首先，引入细粒度路径增强方法以提供更多详细信息来精确定位小物体；其次，采用自适应特征融合算法来有效整合不同尺度的特征信息，从而提高模型对不同尺度目标的检测准确率。

Jan, 2024

探索 Difficult Images 对检测变换器（DETR）的鲁棒性和特性

基于 Transformer 的目标检测器 (DETR) 在机器视觉任务中表现出显著性能，但其在处理遮挡和对抗扰动等不同图像干扰方面存在问题。我们通过多种实验和将 DETR 与基于卷积神经网络 (CNN) 的检测器（如 YOLO 和 Faster-RCNN）进行基准测试来研究这个问题。我们发现 DETR 在处理遮挡图像的信息丢失干扰方面表现良好。然而，在涂有对抗标记的图像上，网络需要产生一组新的不必要的键、查询和值，导致网络方向错误。与图像损坏基准测试中 YOLOv5 相比，DETR 的性能也较差。此外，我们发现 DETR 在进行预测时严重依赖于主要查询，导致查询之间的贡献不平衡，因为主要查询接收大部分梯度流。

Oct, 2023

DA-DETR: 带信息融合的领域自适应检测变压器

设计了 DA-DETR，一种域自适应物体检测变压器，引入信息融合以实现从一个带标记的源域到一个未标记的目标域的有效传输，并采用 CTBlender 对卷积神经网络特征和变换器特征进行聚合。在多个广泛采用的域自适应基准测试中，DA-DETR 不断实现卓越的检测性能。

Mar, 2021

使用 Transformer R-CNN 的去噪 FPN 实现微小目标检测

提出了一种新的框架，DeNoising FPN with Trans R-CNN (DNTR)，用于改进微小目标检测的性能，通过引入 DN-FPN 模块和基于 Transformer 的 Trans R-CNN 检测器，结合对比学习和自注意力机制，实现了在 AI-TOD 数据集和 VisDrone 数据集上至少 17.4％和 9.6％AP 值的性能提升。

Jun, 2024

Lite DETR：高效的交错多尺度编码器

本文提出了 Lite DETR，一种简单而高效的端到端目标检测框架，用于减少检测头的 GFLOPs，同时保持 99％的原始性能。通过设计一种有效的编码器块，以交错的方式更新高级和低级功能，并开发了一种关键感知可变形关注机制，以更好地融合跨尺度特征。全面的实验验证了所提出的 Lite DETR 的有效性和效率，而高效的编码器策略可以很好地推广到现有的 DETR-based 模型中。

Mar, 2023

使用 Transformer 进行端到端的目标检测

该研究提出了一种新方法，将目标检测作为直接集合预测问题进行处理，主要采用基于集合的全局损失和 Transformer 编码器 - 解码器架构构建 DETR 模型，能够高效地完成目标检测和全景分割任务，相较于许多现代检测器，DETR 模型概念简单且不需要专门的库。

May, 2020

Deformable DETR：可变形 Transformer 完整目标检测

Deformable DETR 提出了一种改进的 Transformer 注意力模块，只关注于围绕参考点的一小集采样点，能够更好地实现物体检测，尤其是在小物体上，并在 COCO 基准测试上得到了有效的实验结果。

Oct, 2020

用 Transformer 进行的多目标追踪的对比学习

通过引入实例级对比损失、修订的采样策略和轻量级分配方法，我们展示了如何将 DETR 转化为 MOT 模型，学习目标的外观并保留检测能力，其性能在具有挑战性的 BDD100K 数据集上超过了先前的最新技术水平 2.6 mMOTA，并在 MOT17 数据集上与现有的基于 transformer 的方法相媲美。

Nov, 2023

EfficientDet：可伸缩高效的目标检测

本文系统地研究了神经网络结构设计选择以提高计算机视觉中目标检测的模型效率，提出多个优化方案，包括带权重的双向特征金字塔网络、统一调整骨干网络、特征网络、盒类预测网络的分辨率、深度和宽度的复合调节方法，成功开发了名为 EfficientDet 的新一代目标检测器，拥有更高的性能和更小的计算量。

Nov, 2019