孪生 DETR

CVPRMar, 2023

Siamese DETR

Zeren Chen, Gengshi Huang, Wei Li, Jianing Teng, Kun Wang...

TL;DR本文提出了一种用于 Transformer 架构中 Siamese 自监督预训练的方法，通过多视角学习框架同步进行定位和区分，设计了两种自监督的预训练任务：多视区域检测和多视语义区分。

Abstract

Recent self-supervised methods are mainly designed for representation learning with the base model, e.g., ResNets or ViTs. They cannot be easily transferred to DETR, with task-specific Transformer modules. In this work, we present Siamese DETR, a Siamese →

self-supervised pretraining transformer architecture multi-view learning object detection

发现论文，激发创造

SimDETR: DETR 的简化自监督预训练

使用 DETR 为基础的目标检测器，通过无监督预训练和利用大量未标记数据来提高检测器的性能，采用更丰富、基于语义的初始提议、基于聚类的物体伪标签的判别性训练以及自我训练等三个关键因素，显著提升了 DETR 在完整和低数据情况下的性能，并且证明能够在复杂图像数据集上从头开始预训练，直接实现无监督表示学习。

Jul, 2023

自监督学习在利用 Transformer 进行物体检测方面的实证研究

研究使用自监督学习中的图像重构、遮蔽图像建模和拼图等方法来训练物体检测转换器的编码器，以实现预训练和多任务学习，并在 iSAID 数据集上进行了初步实验。

May, 2022

用于通用多目标跟踪的孪生 DETR

本文针对 Generic MOT 提出了一种简单而有效的方法 Siamese-DETR，通过基于给定模板图像设计多尺度的对象查询，引入动态匹配训练策略，并通过在前一帧中添加跟踪框作为额外的查询框，简化了在线跟踪流程，将复杂的数据关联替换为更简单的非极大值抑制方法。广泛的实验证明，Siamese-DETR 在 GMOT-40 数据集上远远超过现有的 MOT 方法。

Oct, 2023

重新审视 DETR 目标检测的预训练方法

通过对最新的自我监督训练方法进行实验，发现之前的代表性自我监督方法无法提升强 DET-based 方法在完整数据范围上的性能，但通过结合更准确的盒子预测器和 Objects365 基准可以显著提高后续实验的结果，在 COCO 验证集上实现了 AP=59.3% 的强大目标检测结果，超过了 H-Deformable-DETR + Swin-L 的 1.4%；此外，通过合成的预训练数据集（LLaVA 和 SDXL 的组合）进行预训练，可以显著提高目标检测性能，并且在未来扩展合成预训练数据集方面有巨大优势。

Aug, 2023

DETR 不需要多尺度或局部设计

本论文介绍了一种改进的 DETR 检测器，它采用了 “简洁” 的设计，使用单尺度特征图和全局交叉注意力计算，并没有特定的局部约束，与之前基于 DETR 的主要检测器相比，没有重新引入多尺度和局部性的架构偏好。我们展示了两种简单的技术在简洁设计中的出人意料的有效性，以弥补多尺度特征图和局部性约束缺失的问题。第一种是将盒子到像素相对位置偏差（BoxRPB）项添加到交叉注意力公式中，它很好地指导每个查询与对应的对象区域相互关注，并提供了编码灵活性。第二种是基于遮蔽图像模型（MIM）的骨干预训练，有助于学习具有细粒度定位能力的表示，并且对于补救对多尺度特征图的依赖是至关重要的。通过结合这些技术和最新的训练方法和问题形成策略，改进的 “简洁” DETR 检测器在原始 DETR 检测器的基础上取得了显著的改进。通过利用 Object365 数据集进行预训练，使用 Swin-L 骨干网络达到了 63.9 的平均精度（mAP），与依赖于多尺度特征图和基于区域的特征提取的最先进的检测器性能相媲美。代码在此 https URL 中提供。

Aug, 2023

Semi-DETR: 基于检测 Transformer 的半监督目标检测

我们提出了 Semi-DETR，一个基于 transformer 的端到端半监督物体检测器，通过阶段混合匹配策略、跨视图查询一致性方法和基于代价的伪标签挖掘模块解决 DETR 中存在的问题，并在 COCO 和 Pascal VOC 基准数据集上的所有 SSOD 设置中进行的实验表明，我们的方法优于所有现有方法。

Jul, 2023

增强 DETR 收敛和多尺度特征融合的语义对齐匹配

本文提出 Semantic-Aligned-Matching DETR++（SAM-DETR++）算法，通过在同一特征嵌入空间中投影对象查询和编码图像特征以便更容易地匹配具有类似语义的对象。此算法有效地融合了多尺度特征，加速了 DETR 的收敛速度并提高了检测精度，拥有成为现有 DETR 收敛解决方案完美补充的潜力。

Jul, 2022

用 Transformer 进行的多目标追踪的对比学习

通过引入实例级对比损失、修订的采样策略和轻量级分配方法，我们展示了如何将 DETR 转化为 MOT 模型，学习目标的外观并保留检测能力，其性能在具有挑战性的 BDD100K 数据集上超过了先前的最新技术水平 2.6 mMOTA，并在 MOT17 数据集上与现有的基于 transformer 的方法相媲美。

Nov, 2023

DETReg: 无监督预训练结合区域先验用于目标检测

本研究通过引入 DETReg，一种新的自监督方法，对整个目标检测网络进行预训练，包括目标定位和嵌入组件，取得了在 COCO 等低数据环境中许多最先进结果的 + 6.0 AP 改进的成果。

Jun, 2021

使用 Transformer 进行端到端的目标检测

该研究提出了一种新方法，将目标检测作为直接集合预测问题进行处理，主要采用基于集合的全局损失和 Transformer 编码器 - 解码器架构构建 DETR 模型，能够高效地完成目标检测和全景分割任务，相较于许多现代检测器，DETR 模型概念简单且不需要专门的库。

May, 2020