超越边界框：目标检测的多模态知识学习

CVPRMay, 2022

超越边界框：目标检测的多模态知识学习

Beyond Bounding Box: Multimodal Knowledge Learning for Object Detection

Weixin Feng, Xingyuan Bu, Chenchen Zhang, Xubin Li

TL;DR该论文介绍了一种利用语言提示来增强物体检测的方法，用 bounding box annotations 填充语言提示中，利用跨模态信息将语言知识注入到检测模型中，同时，该方法还生成了 hard negatives 进一步提升检测性能。该方法在 MS-COCO 和 OpenImages 数据集上实现了最新的领先水平。

Abstract

multimodal supervision has achieved promising results in many visual language understanding tasks, where the language plays an essential role as a hint or context for recognizing and locating instances. However, due to the defects of the human-annotated language corpus, →

multimodal supervision object detection language prompt bounding box annotations cross-modal mutual information

发现论文，激发创造

开探多模态上下文知识的开放词汇物体检测

该研究论文探索了多模态背景知识在开放词汇目标检测中的作用，并提出了一种多模态背景知识蒸馏框架，通过从多模态融合转换器中学习上下文知识并应用于学生检测器，取得了显著的提升。

Aug, 2023

多模态大语言模型下的上下文目标检测

本文介绍了一个名为 ContextDET 的多模态模型，该模型解决了现有的 MLLMs 在物体检测方面的局限性，可以对人机交互中的视觉单元进行定位、识别和分配，意义重大。

May, 2023

利用视觉检测模型增强多模态大型语言模型：实证研究

通过融合先进的目标检测和光学字符识别模型，我们在多模态大型语言模型的基础上进行了实证研究，以改善对细粒度图像理解的能力并减少回应中的虚构现象。我们的研究探讨了融合检测信息的基于嵌入的方法，该方法对原始多模态大型语言模型的影响以及检测模型的互换性。通过与 LLaVA-1.5、DINO 和 PaddleOCRv2 等模型进行系统实验，我们发现我们的方法不仅在特定的视觉任务中提高了多模态大型语言模型的性能，而且保持了其原始优势。结果表明，改进后的多模态大型语言模型在 10 个基准测试中有 9 个超过了先进模型，在规范化的平均得分上取得了最高 12.99% 的提升，标志着多模态理解领域的重大进展。通过发布我们的代码，我们希望进一步探索多模态大型语言模型在细粒度多模态对话能力方面的应用。

Jan, 2024

基于元学习的跨模态提示的多模态小样本目标检测

本文介绍了一种基于多模态少样本学习的目标检测方法，使用视觉样本和分类语义信息来检测目标，通过元学习和提示学习相结合，在不需要微调的情况下建立通用少 / 零样本检测模型，同时引入知识蒸馏来解决针对稀有类别缺乏类名称先验知识的问题，通过在多个少样本数据集上的实验来验证该方法的有效性。

Apr, 2022

开放词汇目标检测的学习目标语言对齐

提出了一种使用自然语言监督学习从配对的图像文本数据中直接学习的新型开放词汇目标检测框架，通过将对象 - 语言对齐形式化为一个图像区域特征集合和一个词向量集合之间的集合匹配问题，可以更简单和有效地在图像 - 文本对上训练开放词汇对象探测器，并在两个基准数据集上进行了广泛的实验，在 LVIS 等新类别上实现了 32.0％的 mAP 和 21.7％的掩膜 mAP 等卓越性能。

Nov, 2022

通过检索的标签提醒多模态大型语言模型中的物体感知知识

通过增强检索增强标记令牌，我们提出了 Tag-grounded visual instruction tuning with retrieval Augmentation（TUNA），在 12 个基准测试中优于使用相同语言模型和训练数据的基线模型，并展示了 TUNA 的零 - shot 能力。

Jun, 2024

大规模半监督目标检测的视觉和语义知识迁移

基于深度卷积神经网络的物体检测系统在许多大规模物体检测基准测试中取得了显着成就，然而，这需要大量的标注边界框来进行训练。本文通过将图像级别分类器转化为物体检测器解决了此问题，并利用来自视觉和语义领域的物体相似性知识，在将分类器转换为没有边界框注释的类别时转移此信息。实验结果表明，我们提出的基于物体相似性的知识转移方法在半监督设置下实现了最先进的检测性能。

Jan, 2018

多粒度语言指导的多目标追踪

通过结合多模态的语言驱动特征和视觉特征，在多目标跟踪中提出了一种新的 LG-MOT 框架，它在不同层次上（场景和实例级）明确利用语言信息并且与标准视觉特征结合以获得判别性表示。通过在现有的 MOT 数据集中注释场景和实例级的语言描述，将语言信息编码到高维度嵌入中，并在训练过程中用于引导视觉特征。在三个基准测试集 MOT17、DanceTrack 和 SportsMOT 上进行了广泛实验，结果显示提出的方法在性能上达到了最先进水平，并在舞蹈跟踪测试集上相对于仅使用视觉特征的基线方法具有绝对增益 2.2％。此外，所提出的 LG-MOT 表现出良好的跨领域泛化能力。

Jun, 2024

使用字幕的开放词汇物体检测

本文提出了一种称为开放词汇物体检测的新型物体检测问题，利用有限数量的物体分类边界框注释和图像 - 标题对来训练物体检测器，可以在更低的成本下覆盖更广泛的物体范围，成功地解决了物体检测中监督要求高的问题，并且更具实用性和效率，可以检测和定位那些未在训练过程中提供边界框注释的物体，无监督和零样本方法都无法做到如此高的准确性。

Nov, 2020

通过多模态知识迁移的开放词汇多标签分类

本研究提出一种新的基于开放词汇的跨模态知识迁移框架 (MKT)，利用视觉和语言预训练模型的多模态知识，采用知识蒸馏技术和双流模块来实现多标签分类和多目标识别，并在公开基准数据集上显著优于现有方法。

Jul, 2022