Sparse DETR:可学习稀疏性的高效端到端目标检测
本文提出使用密集先验初始化对象容器的方法,利用 Efficient DETR 同时利用密集检测和稀疏集检测,实现只有 3 个编码器层和 1 个解码器层的端到端物体检测,提高了算法效率和性能。在 MS COCO 数据集上的实验证明了该算法在拥挤场景下仍能稳定工作,并取得最先进算法相近的成绩,且在 CrowdHuman 数据集上表现优异。
Apr, 2021
Deformable DETR 提出了一种改进的 Transformer 注意力模块,只关注于围绕参考点的一小集采样点,能够更好地实现物体检测,尤其是在小物体上,并在 COCO 基准测试上得到了有效的实验结果。
Oct, 2020
DETR-like 模型相比传统卷积模型有很大的提升效果,然而现有的编码器结构中所有的令牌都被平等对待,不加区分地处理给传统的编码器结构带来了冗余计算负担,因此提出了 Focus-DETR 来得到更好的计算效率和模型准确性的权衡,通过使用双重注意力的编码器对更具信息量的令牌进行关注,并通过得分来增强细粒度对象查询的语义交互。
Jul, 2023
本文提出了 Lite DETR,一种简单而高效的端到端目标检测框架,用于减少检测头的 GFLOPs,同时保持 99%的原始性能。通过设计一种有效的编码器块,以交错的方式更新高级和低级功能,并开发了一种关键感知可变形关注机制,以更好地融合跨尺度特征。全面的实验验证了所提出的 Lite DETR 的有效性和效率,而高效的编码器策略可以很好地推广到现有的 DETR-based 模型中。
Mar, 2023
Sparse Semi-DETR 是一种基于 Transformer 的端到端半监督目标检测解决方案,通过引入查询精化模块和可靠伪标签过滤模块来解决 DETR-based SSOD 框架中对象查询质量不准确和重叠预测的问题,大大提高了对小型和部分遮挡对象的检测能力,并在 MS-COCO 和 Pascal VOC 目标检测基准测试中实现了显著改进。
Apr, 2024
该研究提出了一种新方法,将目标检测作为直接集合预测问题进行处理,主要采用基于集合的全局损失和 Transformer 编码器 - 解码器架构构建 DETR 模型,能够高效地完成目标检测和全景分割任务,相较于许多现代检测器,DETR 模型概念简单且不需要专门的库。
May, 2020
基于 Transformer 的目标检测器 (DETR) 在机器视觉任务中表现出显著性能,但其在处理遮挡和对抗扰动等不同图像干扰方面存在问题。我们通过多种实验和将 DETR 与基于卷积神经网络 (CNN) 的检测器(如 YOLO 和 Faster-RCNN)进行基准测试来研究这个问题。我们发现 DETR 在处理遮挡图像的信息丢失干扰方面表现良好。然而,在涂有对抗标记的图像上,网络需要产生一组新的不必要的键、查询和值,导致网络方向错误。与图像损坏基准测试中 YOLOv5 相比,DETR 的性能也较差。此外,我们发现 DETR 在进行预测时严重依赖于主要查询,导致查询之间的贡献不平衡,因为主要查询接收大部分梯度流。
Oct, 2023
本研究通过分析数据效率影响因素,发现从图像局部区域进行稀疏特征采样可以减小检测模型对数据的依赖性,并提出了一种简单但有效的标注增强方法,实现最小改动的联合注意力构造,从而提高检测模型在小数据集和样本丰富数据集上的性能。
Mar, 2022
该论文介绍了一种条件交叉注意力机制,名为条件 DETR,以应对目标检测中 DETR 训练速度较慢的问题,并通过实验证明,相较于传统的 DETR,条件 DETR 在训练速度上提升了 10 倍,并可通过 https 链接获取源代码。
Aug, 2021
本研究针对小物体检测中 RT-DETR 模型的准确性不足提出了两个关键改进:首先,引入细粒度路径增强方法以提供更多详细信息来精确定位小物体;其次,采用自适应特征融合算法来有效整合不同尺度的特征信息,从而提高模型对不同尺度目标的检测准确率。
Jan, 2024