MS-DETR: 使用混合监督实现高效的 DETR 训练
我们提出了 Semi-DETR,一个基于 transformer 的端到端半监督物体检测器,通过阶段混合匹配策略、跨视图查询一致性方法和基于代价的伪标签挖掘模块解决 DETR 中存在的问题,并在 COCO 和 Pascal VOC 基准数据集上的所有 SSOD 设置中进行的实验表明,我们的方法优于所有现有方法。
Jul, 2023
本文提出一种名为 H-DETR 的简单而有效的混合匹配方案,该方案结合了原始的 “一对一” 匹配分支和辅助的 “一对多” 匹配分支,在训练期间显著提高了准确性,同时保持了 DETR 的端到端特性和相同的推理效率。
Jul, 2022
Sparse Semi-DETR 是一种基于 Transformer 的端到端半监督目标检测解决方案,通过引入查询精化模块和可靠伪标签过滤模块来解决 DETR-based SSOD 框架中对象查询质量不准确和重叠预测的问题,大大提高了对小型和部分遮挡对象的检测能力,并在 MS-COCO 和 Pascal VOC 目标检测基准测试中实现了显著改进。
Apr, 2024
本文提出使用密集先验初始化对象容器的方法,利用 Efficient DETR 同时利用密集检测和稀疏集检测,实现只有 3 个编码器层和 1 个解码器层的端到端物体检测,提高了算法效率和性能。在 MS COCO 数据集上的实验证明了该算法在拥挤场景下仍能稳定工作,并取得最先进算法相近的成绩,且在 CrowdHuman 数据集上表现优异。
Apr, 2021
通过引入实例级对比损失、修订的采样策略和轻量级分配方法,我们展示了如何将 DETR 转化为 MOT 模型,学习目标的外观并保留检测能力,其性能在具有挑战性的 BDD100K 数据集上超过了先前的最新技术水平 2.6 mMOTA,并在 MOT17 数据集上与现有的基于 transformer 的方法相媲美。
Nov, 2023
该研究提出了一种新方法,将目标检测作为直接集合预测问题进行处理,主要采用基于集合的全局损失和 Transformer 编码器 - 解码器架构构建 DETR 模型,能够高效地完成目标检测和全景分割任务,相较于许多现代检测器,DETR 模型概念简单且不需要专门的库。
May, 2020
使用 DETR 为基础的目标检测器,通过无监督预训练和利用大量未标记数据来提高检测器的性能,采用更丰富、基于语义的初始提议、基于聚类的物体伪标签的判别性训练以及自我训练等三个关键因素,显著提升了 DETR 在完整和低数据情况下的性能,并且证明能够在复杂图像数据集上从头开始预训练,直接实现无监督表示学习。
Jul, 2023
本论文介绍了一种改进的 DETR 检测器,它采用了 “简洁” 的设计,使用单尺度特征图和全局交叉注意力计算,并没有特定的局部约束,与之前基于 DETR 的主要检测器相比,没有重新引入多尺度和局部性的架构偏好。我们展示了两种简单的技术在简洁设计中的出人意料的有效性,以弥补多尺度特征图和局部性约束缺失的问题。第一种是将盒子到像素相对位置偏差(BoxRPB)项添加到交叉注意力公式中,它很好地指导每个查询与对应的对象区域相互关注,并提供了编码灵活性。第二种是基于遮蔽图像模型(MIM)的骨干预训练,有助于学习具有细粒度定位能力的表示,并且对于补救对多尺度特征图的依赖是至关重要的。通过结合这些技术和最新的训练方法和问题形成策略,改进的 “简洁” DETR 检测器在原始 DETR 检测器的基础上取得了显著的改进。通过利用 Object365 数据集进行预训练,使用 Swin-L 骨干网络达到了 63.9 的平均精度(mAP),与依赖于多尺度特征图和基于区域的特征提取的最先进的检测器性能相媲美。代码在此 https URL 中提供。
Aug, 2023
该研究提出了基于 transformer-based 的 MDETR 多模态推理系统,能够从图像中提取物体并进行相关性文本推理,实验表明在对象检测、自然语言问题回答等任务中均获得了最佳表现。
Apr, 2021
本文提出了 Lite DETR,一种简单而高效的端到端目标检测框架,用于减少检测头的 GFLOPs,同时保持 99%的原始性能。通过设计一种有效的编码器块,以交错的方式更新高级和低级功能,并开发了一种关键感知可变形关注机制,以更好地融合跨尺度特征。全面的实验验证了所提出的 Lite DETR 的有效性和效率,而高效的编码器策略可以很好地推广到现有的 DETR-based 模型中。
Mar, 2023