通过选择性查询再现增强基于查询的对象检测训练
该研究提出了一种名为 GOLO 的全局一次和局部一次(Global Once and Local Once)模型,通过减少解码阶段的数量,同时在性能上仍然取得了相当好的表现,从而改进了基于查询的目标检测器。在 COCO 数据集上的实验结果证明了该方法的有效性。
Sep, 2023
使用基于 Transformer 的检测和分割方法,学习检测查询列表以从变压器网络中检索信息,并学习预测每个查询中一个特定对象的位置和类别。通过学习基于图像的高层语义的动态系数的凸组合的方式,生成的动态查询更好地捕获不同图像中对象位置和类别的先验信息。利用我们的模态查询,一系列基于 DETR 的模型在多个任务中实现了一致且优秀的性能,包括物体检测,实例分割,全景分割和视频实例分割。
Jul, 2023
MQ-Det 是一种多模态查询目标检测方法,结合了文本和图像作为类别查询,该方法通过在现有的只有文本的检测器中插入可扩展的感知模块,将类别文本与类别视觉信息相结合,并提出了一种视觉条件掩码语言预测策略,可以显著提高开放式检测的性能。
May, 2023
我们提出了一种具备有效的解码器的端到端定向目标检测器,该解码器结合了旋转 RoI 注意力(RRoI 注意力)和选择性不同查询(SDQ)两项技术,能够有效地解决遥感图像中多方向、不同尺度、密集分布的目标实例的检测问题。通过交叉注意机制,RRoI 注意力能够有效地聚焦定向感兴趣区域并对多尺度特征进行对齐。通过从中间解码器层收集查询并过滤相似查询以获得不同查询,提出的 SDQ 能够促进一对一标签分配的优化,而不会引入多余的初始查询或额外的辅助分支。在五个数据集上进行的大量实验证明了我们方法的有效性,尤其是我们的方法在 DIOR-R(67.31% mAP)、DOTA-v1.5(67.43% mAP)和 DOTA-v2.0(53.28% mAP)上取得了最先进的性能,使用了 ResNet50 作为骨干网络。
Nov, 2023
本文介绍了一种自适应内容查询模块(SACQ),它利用变换器编码器的特征通过自注意力池化生成内容查询,解决了传统零初始化或可学习嵌入的内容查询缺乏信息导致性能不佳的问题。为了应对增强的集中力对匈牙利匹配训练过程的挑战,我们提出了查询聚合策略,合并来自不同查询的类似预测候选项,从而简化优化过程。在 COCO 数据集上的广泛实验证明了我们所提方法的有效性,在多种配置下对六种 DETR 变体均取得了超过 1.0 AP 的平均改进。
May, 2024
通过设计深度平衡解码器,我们提出了一种新的基于查询的目标检测器(DEQDet),能够通过一系列解码器层逐步完善查询向量,直接预测物体位置和类别。通过不精确梯度反向传播(RAG)和改进的深度监督方案(RAP),我们的 DEQDet 相较于基准模型(AdaMixer)收敛更快,内存占用更少,并取得了更好的性能表现。在 MS COCO 基准测试下,我们的 DEQDet 使用 ResNet50 骨干网络和 300 个查询达到了 49.5 mAP 和 33.0 AP$_s$,训练方案为 2 倍(24 epochs)。
Aug, 2023
在对象检测领域,提出了 QueryDet 算法,使用了新颖的查询机制来加速基于特征金字塔的对象检测器的推理速度,既可以收获高分辨率特征图的好处,又可以避免背景区域的无用计算,从而在保证精度的前提下提高了推理速度。
Mar, 2021
Sparse Semi-DETR 是一种基于 Transformer 的端到端半监督目标检测解决方案,通过引入查询精化模块和可靠伪标签过滤模块来解决 DETR-based SSOD 框架中对象查询质量不准确和重叠预测的问题,大大提高了对小型和部分遮挡对象的检测能力,并在 MS-COCO 和 Pascal VOC 目标检测基准测试中实现了显著改进。
Apr, 2024
本文提出了一种新的 query-based 目标检测器 StageInteractor,具有跨阶段交互和标签分配策略,并改进了建模能力,并在 MS COCO 基准测试中取得了很好的表现。
Apr, 2023
本研究提出了一种新颖的选择性查询引导去偏置网络 (SQuiDNet),通过有意地揭示查询中对象固有的偏倚时刻和执行由查询含义引导的选择性去偏倚以结合检索偏差以及查询中的对象、时刻和文本,本研究在三个时刻检索基准测试(即 TVR、ActivityNet 和 DiDeMo)上验证了 SQuiDNet 的有效性,并表明其具有更好的可解释性。
Oct, 2022