X-DETR：一种用于实例级视觉 - 语言任务的通用架构

Apr, 2022

X-DETR：一种用于实例级视觉 - 语言任务的通用架构

X-DETR: A Versatile Architecture for Instance-wise Vision-Language Tasks

Zhaowei Cai, Gukyeong Kwon, Avinash Ravichandran, Erhan Bas, Zhuowen Tu...

TL;DR本文提出一种名为 X-DETR 的算法，针对具有挑战性的逐实例视觉语言任务进行研究；X-DETR 的架构包括对象检测器、语言编码器和视觉语言对齐器；该算法采用弱监督来扩大知识覆盖范围，经测试准确率高且速度快。

Abstract

In this paper, we study the challenging instance-wise vision-language tasks, where the free-form language is required to align with the objects instead of the whole image. To address these tasks, we propose X-DETR, whose architecture has three major components: an →

instance-wise vision-language tasks object detector language encoder vision-language alignment weak supervision

发现论文，激发创造

用 Transformer 进行的多目标追踪的对比学习

通过引入实例级对比损失、修订的采样策略和轻量级分配方法，我们展示了如何将 DETR 转化为 MOT 模型，学习目标的外观并保留检测能力，其性能在具有挑战性的 BDD100K 数据集上超过了先前的最新技术水平 2.6 mMOTA，并在 MOT17 数据集上与现有的基于 transformer 的方法相媲美。

Nov, 2023

具有条件匹配的 Open-Vocabulary DETR

提出一种基于 DETR 模型和 Transformer 模型的开放词汇检测器 OV-DETR，该模型能够通过自然语言或示例图像输入，检测任何物体。通过在 LVIS 和 COCO 数据集上进行广泛实验，该模型证明了显著的性能提升。

Mar, 2022

MDETR -- 基于调制的端到端多模态理解检测

该研究提出了基于 transformer-based 的 MDETR 多模态推理系统，能够从图像中提取物体并进行相关性文本推理，实验表明在对象检测、自然语言问题回答等任务中均获得了最佳表现。

Apr, 2021

使用 Transformer 进行端到端的目标检测

该研究提出了一种新方法，将目标检测作为直接集合预测问题进行处理，主要采用基于集合的全局损失和 Transformer 编码器 - 解码器架构构建 DETR 模型，能够高效地完成目标检测和全景分割任务，相较于许多现代检测器，DETR 模型概念简单且不需要专门的库。

May, 2020

DETR 不需要多尺度或局部设计

本论文介绍了一种改进的 DETR 检测器，它采用了 “简洁” 的设计，使用单尺度特征图和全局交叉注意力计算，并没有特定的局部约束，与之前基于 DETR 的主要检测器相比，没有重新引入多尺度和局部性的架构偏好。我们展示了两种简单的技术在简洁设计中的出人意料的有效性，以弥补多尺度特征图和局部性约束缺失的问题。第一种是将盒子到像素相对位置偏差（BoxRPB）项添加到交叉注意力公式中，它很好地指导每个查询与对应的对象区域相互关注，并提供了编码灵活性。第二种是基于遮蔽图像模型（MIM）的骨干预训练，有助于学习具有细粒度定位能力的表示，并且对于补救对多尺度特征图的依赖是至关重要的。通过结合这些技术和最新的训练方法和问题形成策略，改进的 “简洁” DETR 检测器在原始 DETR 检测器的基础上取得了显著的改进。通过利用 Object365 数据集进行预训练，使用 Swin-L 骨干网络达到了 63.9 的平均精度（mAP），与依赖于多尺度特征图和基于区域的特征提取的最先进的检测器性能相媲美。代码在此 https URL 中提供。

Aug, 2023

针对 DETR 的语言感知多个数据集检测预训练

本文提出了一种预训练 DETR 检测器的强大框架，命名为 METR，通过引入预训练语言模型将经典的目标检测器多分类转化为二分类，从而在不需要手动标注标签空间的情况下利用多个数据集联合预训练模型，并通过组合二分匹配策略实现预测。在大量实验中表明 METR 具有出色的性能表现，并可高度灵活地传递到各种 DETR-like 检测器上。

Apr, 2023

级联 DETR：深入高质量的通用目标检测

我们引入了 Cascade-DETR 用于高质量的通用目标检测，通过提出级联注意力层来共同解决对多样领域的泛化和定位准确性问题，通过限制关注先前的目标框预测来显式地将对象中心信息集成到检测解码器中。为了进一步提高准确性，我们重新审视了查询的评分，不依赖于分类分数，而是预测查询的预期 IoU，从而显著提高了置信度的校准性，最后，我们引入了一个包含来自多个领域的 10 个数据集的通用目标检测基准，UDB10，在 COCO 上也取得了最新的进展，Cascade-DETR 在 UDB10 的所有数据集上都对基于 DETR 的检测器有了显著的改进，有些甚至超过 10 个 mAP，严格质量要求下的改进效果更加显著。

Jul, 2023

LW-DETR：实时检测的一种用于替代 YOLO 的 Transformer

本文介绍了一种轻量级检测变换器 (LW-DETR)，它在实时目标检测方面优于 YOLO，架构简单，由 ViT 编码器、投影器和浅层 DETR 解码器组成，结合训练有效技术和插入式窗口和全局注意力等最新技术，改进了 ViT 编码器的复杂性，实验证明所提出的方法在 COCO 和其他基准数据集上优于现有的实时检测器。

Jun, 2024

基于 Transformer 的目标检测

本文提出基于 Transformer 的新方法 O²DETR，实现了复杂的有方向物体检测，无需旋转锚点，其性能表现明显优于 Faster R-CNN 和 RetinaNet。

Jun, 2021

探索 Difficult Images 对检测变换器（DETR）的鲁棒性和特性

基于 Transformer 的目标检测器 (DETR) 在机器视觉任务中表现出显著性能，但其在处理遮挡和对抗扰动等不同图像干扰方面存在问题。我们通过多种实验和将 DETR 与基于卷积神经网络 (CNN) 的检测器（如 YOLO 和 Faster-RCNN）进行基准测试来研究这个问题。我们发现 DETR 在处理遮挡图像的信息丢失干扰方面表现良好。然而，在涂有对抗标记的图像上，网络需要产生一组新的不必要的键、查询和值，导致网络方向错误。与图像损坏基准测试中 YOLOv5 相比，DETR 的性能也较差。此外，我们发现 DETR 在进行预测时严重依赖于主要查询，导致查询之间的贡献不平衡，因为主要查询接收大部分梯度流。

Oct, 2023