野外多模态查询对象检测

May, 2023

Multi-modal Queried Object Detection in the Wild

Yifan Xu, Mengdan Zhang, Chaoyou Fu, Peixian Chen, Xiaoshan Yang...

TL;DRMQ-Det 是一种多模态查询目标检测方法，结合了文本和图像作为类别查询，该方法通过在现有的只有文本的检测器中插入可扩展的感知模块，将类别文本与类别视觉信息相结合，并提出了一种视觉条件掩码语言预测策略，可以显著提高开放式检测的性能。

Abstract

We introduce mq-det, an efficient architecture and pre-training strategy design to utilize both textual description with open-set generalization and visual exemplars with rich description granularity as category queries, namely, Multi-modal Queried →

mq-det multi-modal queries object detection language-queried object detectors open-world detection

发现论文，激发创造

多模态大语言模型下的上下文目标检测

本文介绍了一个名为 ContextDET 的多模态模型，该模型解决了现有的 MLLMs 在物体检测方面的局限性，可以对人机交互中的视觉单元进行定位、识别和分配，意义重大。

May, 2023

OmDet: 大规模视觉语言多数据集预训练的语言感知目标检测

本文提出一种基于多模态预训练的语言条件检测框架，能够通过自然语言作为知识表示从不同的数据集中积累 “视觉词汇”，解决多数据集训练中的技术难题，并成功应用于超过 35 个目标检测任务，取得最新成果。

Sep, 2022

MDETR -- 基于调制的端到端多模态理解检测

该研究提出了基于 transformer-based 的 MDETR 多模态推理系统，能够从图像中提取物体并进行相关性文本推理，实验表明在对象检测、自然语言问题回答等任务中均获得了最佳表现。

Apr, 2021

开放词汇物体检测的多模式分类器

本文旨在进行无遮挡多类目标检测的研究，探索使用语言描述、图像样例或两者的组合来指定新颖类别的三种方式，研究者通过采用大型语言模型来生成信息化的语言描述，基于图像样例提供了视觉聚合器，并提出了将语言描述和图像样例信息融合的多模态分类器方法。实验表明，本文提出的基于文本的分类器优于之前 OVOD 方案，基于视觉的分类器表现与文本分类器表现相当，而使用多模态分类器比任一模态更好。

Jun, 2023

三维物体检测的多模态物体查询初始化

提出了 EfficientQ3M，一种高效、模块化、多模态的解决方案，用于基于 transformer 的 3D 目标检测模型中的对象查询初始化。通过与 “模态平衡” 的 transformer 解码器相结合，该方法能够在解码器过程中使查询能够访问所有传感器模态，并在竞争激烈的 nuScenes 基准测试中超越现有方法，展示了基于输入的多模态查询初始化的优势，并且比 LiDAR - 摄像机初始化的可用替代方法更高效。该方法可以应用于任何组合的传感器模态作为输入，展示了它的模块化特性。

Oct, 2023

OV-DQUO: 带降噪文本查询训练和开放世界未知对象监督的开放词汇 DETR

提出了一种名为 OV-DQUO 的开放词汇 DETR，利用去噪文本查询训练和未知对象监督的方法，通过通配符匹配和对比学习来解决开放词汇检测器中基本类别和新类别之间的信心偏见，能够在 OV-COCO 和 OV-LVIS 基准测试上取得新的最先进结果 45.6 AP50 和 39.3 mAP，而无需额外的训练数据。

May, 2024

开探多模态上下文知识的开放词汇物体检测

该研究论文探索了多模态背景知识在开放词汇目标检测中的作用，并提出了一种多模态背景知识蒸馏框架，通过从多模态融合转换器中学习上下文知识并应用于学生检测器，取得了显著的提升。

Aug, 2023

DQ-Det：基于 Transformer 的物体检测与分割的学习动态查询组合

使用基于 Transformer 的检测和分割方法，学习检测查询列表以从变压器网络中检索信息，并学习预测每个查询中一个特定对象的位置和类别。通过学习基于图像的高层语义的动态系数的凸组合的方式，生成的动态查询更好地捕获不同图像中对象位置和类别的先验信息。利用我们的模态查询，一系列基于 DETR 的模型在多个任务中实现了一致且优秀的性能，包括物体检测，实例分割，全景分割和视频实例分割。

Jul, 2023

针对 DETR 的语言感知多个数据集检测预训练

本文提出了一种预训练 DETR 检测器的强大框架，命名为 METR，通过引入预训练语言模型将经典的目标检测器多分类转化为二分类，从而在不需要手动标注标签空间的情况下利用多个数据集联合预训练模型，并通过组合二分匹配策略实现预测。在大量实验中表明 METR 具有出色的性能表现，并可高度灵活地传递到各种 DETR-like 检测器上。

Apr, 2023

CAT-Det: 多模式三维物体检测的对比增强变换器

提出了一种新的多模态三维物体检测方法 - CAT-Det，将深度学习和对比学习相结合，更好地利用 LiDAR 和 RGB 图像之间的互补信息来提高检测准确性。

Apr, 2022