QKVA 网格:基于视觉关注的堆叠 DETR
本论文介绍了一种改进的 DETR 检测器,它采用了 “简洁” 的设计,使用单尺度特征图和全局交叉注意力计算,并没有特定的局部约束,与之前基于 DETR 的主要检测器相比,没有重新引入多尺度和局部性的架构偏好。我们展示了两种简单的技术在简洁设计中的出人意料的有效性,以弥补多尺度特征图和局部性约束缺失的问题。第一种是将盒子到像素相对位置偏差(BoxRPB)项添加到交叉注意力公式中,它很好地指导每个查询与对应的对象区域相互关注,并提供了编码灵活性。第二种是基于遮蔽图像模型(MIM)的骨干预训练,有助于学习具有细粒度定位能力的表示,并且对于补救对多尺度特征图的依赖是至关重要的。通过结合这些技术和最新的训练方法和问题形成策略,改进的 “简洁” DETR 检测器在原始 DETR 检测器的基础上取得了显著的改进。通过利用 Object365 数据集进行预训练,使用 Swin-L 骨干网络达到了 63.9 的平均精度(mAP),与依赖于多尺度特征图和基于区域的特征提取的最先进的检测器性能相媲美。代码在此 https URL 中提供。
Aug, 2023
DETR-like 模型相比传统卷积模型有很大的提升效果,然而现有的编码器结构中所有的令牌都被平等对待,不加区分地处理给传统的编码器结构带来了冗余计算负担,因此提出了 Focus-DETR 来得到更好的计算效率和模型准确性的权衡,通过使用双重注意力的编码器对更具信息量的令牌进行关注,并通过得分来增强细粒度对象查询的语义交互。
Jul, 2023
该论文介绍了一种条件交叉注意力机制,名为条件 DETR,以应对目标检测中 DETR 训练速度较慢的问题,并通过实验证明,相较于传统的 DETR,条件 DETR 在训练速度上提升了 10 倍,并可通过 https 链接获取源代码。
Aug, 2021
通过引入分层显著性筛选细化和稳定的两阶段初始化查询模块,该研究论文在 DETR 类方法中取得了显著的性能提升,克服了规模偏差和语义不匹配的问题,并在多个任务特定的检测数据集上实现了 4.0% ~ 4.4% 的平均准确率(AP)提高以及在 COCO 2017 数据集上实现了 49.2% 的 AP 提高,并且使用更少的 FLOPs 达到了更高的计算效率。
Mar, 2024
通过利用解码器的交叉注意映射以重新激活自注意模块,我们提出了一种名为 Self-DETR 的新型框架来解决 TAD 中的时间折叠问题,并通过保持所有层次上的高多样性注意来证明其有效性。
Aug, 2023
Deformable DETR 提出了一种改进的 Transformer 注意力模块,只关注于围绕参考点的一小集采样点,能够更好地实现物体检测,尤其是在小物体上,并在 COCO 基准测试上得到了有效的实验结果。
Oct, 2020
基于 Transformer 的目标检测器 (DETR) 在机器视觉任务中表现出显著性能,但其在处理遮挡和对抗扰动等不同图像干扰方面存在问题。我们通过多种实验和将 DETR 与基于卷积神经网络 (CNN) 的检测器(如 YOLO 和 Faster-RCNN)进行基准测试来研究这个问题。我们发现 DETR 在处理遮挡图像的信息丢失干扰方面表现良好。然而,在涂有对抗标记的图像上,网络需要产生一组新的不必要的键、查询和值,导致网络方向错误。与图像损坏基准测试中 YOLOv5 相比,DETR 的性能也较差。此外,我们发现 DETR 在进行预测时严重依赖于主要查询,导致查询之间的贡献不平衡,因为主要查询接收大部分梯度流。
Oct, 2023
该研究提出了一种新方法,将目标检测作为直接集合预测问题进行处理,主要采用基于集合的全局损失和 Transformer 编码器 - 解码器架构构建 DETR 模型,能够高效地完成目标检测和全景分割任务,相较于许多现代检测器,DETR 模型概念简单且不需要专门的库。
May, 2020
本文提出了一种简单而有效的机制 —— 空间调制协同注意(SMCA),在检测变压器(DETR)中进行回归感知协同,以提高其收敛速度,并将多头和尺度选择注意设计集成到 SMCA 中,通过在 COCO 数据集上进行大量的消融研究,验证了 SMCA 的有效性。
Jan, 2021
本文针对量化后检测转换器(Q-DETR)信息失真问题提出分布矫正蒸馏方法(DRD),该方法可优化查询分布使熵最大化,在上层引入前景感知查询匹配策略最小化条件熵。实验表明,该方法在 COCO 数据集上,4-bit Q-DETR 可加速与 ResNet-50 骨干网一起使用的 DETR,速度提高 6.6 倍,AP 值达到 39.4%,性能仅存在 2.6%的差距。
Apr, 2023