多模态大语言模型下的上下文目标检测

May, 2023

多模态大语言模型下的上下文目标检测

Contextual Object Detection with Multimodal Large Language Models

Yuhang Zang, Wei Li, Jun Han, Kaiyang Zhou, Chen Change Loy

TL;DR本文介绍了一个名为 ContextDET 的多模态模型，该模型解决了现有的 MLLMs 在物体检测方面的局限性，可以对人机交互中的视觉单元进行定位、识别和分配，意义重大。

Abstract

Recent multimodal large language models (MLLMs) are remarkable in vision-language tasks, such as image captioning and question answering, but lack the essential perception ability, i.e., object detection. In this work, we address this limitation by introducing a novel research problem

multimodal large language models contextual object detection contextdet visual-language contexts human-ai interaction

发现论文，激发创造

开探多模态上下文知识的开放词汇物体检测

该研究论文探索了多模态背景知识在开放词汇目标检测中的作用，并提出了一种多模态背景知识蒸馏框架，通过从多模态融合转换器中学习上下文知识并应用于学生检测器，取得了显著的提升。

Aug, 2023

利用视觉检测模型增强多模态大型语言模型：实证研究

通过融合先进的目标检测和光学字符识别模型，我们在多模态大型语言模型的基础上进行了实证研究，以改善对细粒度图像理解的能力并减少回应中的虚构现象。我们的研究探讨了融合检测信息的基于嵌入的方法，该方法对原始多模态大型语言模型的影响以及检测模型的互换性。通过与 LLaVA-1.5、DINO 和 PaddleOCRv2 等模型进行系统实验，我们发现我们的方法不仅在特定的视觉任务中提高了多模态大型语言模型的性能，而且保持了其原始优势。结果表明，改进后的多模态大型语言模型在 10 个基准测试中有 9 个超过了先进模型，在规范化的平均得分上取得了最高 12.99% 的提升，标志着多模态理解领域的重大进展。通过发布我们的代码，我们希望进一步探索多模态大型语言模型在细粒度多模态对话能力方面的应用。

Jan, 2024

CODIS：面向多模态大型语言模型的上下文相关视觉理解基准测试

多模态大语言模型 (MLLMs) 在结合视觉和语言的各种任务中展现了有前景的结果。本研究引入了一个被命名为 CODIS 的新基准，旨在评估模型利用自由文本中提供的上下文来增强视觉理解能力。我们的研究结果显示 MLLMs 在该基准上始终无法达到人类表现水平，进一步分析证实这些模型在提取和利用上下文信息以改善对图像的理解方面存在困难，强调了提高 MLLMs 以上下文相关方式理解视觉信息的迫切需求。

Feb, 2024

超越边界框：目标检测的多模态知识学习

该论文介绍了一种利用语言提示来增强物体检测的方法，用 bounding box annotations 填充语言提示中，利用跨模态信息将语言知识注入到检测模型中，同时，该方法还生成了 hard negatives 进一步提升检测性能。该方法在 MS-COCO 和 OpenImages 数据集上实现了最新的领先水平。

May, 2022

分析多模态大型语言模型的视觉感知

本研究提出了一种新的方法来增强多模式大型语言模型的可解释性，通过专注于图像嵌入组件。我们将开放世界定位模型与多模式大型语言模型相结合，从而创建一个能够同时产生文本和物体定位输出的新架构。提出的架构极大地促进了可解释性，使我们能够设计一种新的显著性图以解释任何输出标记，识别模型幻觉，并通过语义对抗扰动评估模型的偏见。

May, 2024

野外多模态查询对象检测

MQ-Det 是一种多模态查询目标检测方法，结合了文本和图像作为类别查询，该方法通过在现有的只有文本的检测器中插入可扩展的感知模块，将类别文本与类别视觉信息相结合，并提出了一种视觉条件掩码语言预测策略，可以显著提高开放式检测的性能。

May, 2023

LLMs 遇见 VLMs：用细粒度描述符提升开放词汇物体检测

DVDet 是一个描述符增强的开放词汇检测器，引入条件上下文提示和分层文本描述符，实现了精确的区域 - 文本对齐以及一般的开放词汇检测训练。

Feb, 2024

OmDet: 大规模视觉语言多数据集预训练的语言感知目标检测

本文提出一种基于多模态预训练的语言条件检测框架，能够通过自然语言作为知识表示从不同的数据集中积累 “视觉词汇”，解决多数据集训练中的技术难题，并成功应用于超过 35 个目标检测任务，取得最新成果。

Sep, 2022

机器视觉治疗：多模态大型语言模型通过去噪上下文学习增强视觉鲁棒性

我们提出了一种有效利用 MLLMs 进行机器视觉治疗的方法，通过与去噪标签进行微调，以无监督的方式提高学习模型的性能，并通过提出的 DICL 策略解决了 MLLMs 与视觉任务的兼容性问题。

Dec, 2023

超越预训练目标检测器：图像字幕生成中的跨模态文本和视觉语境

本文提出了一种通过添加辅助输入以表示缺失信息（例如物体关系）来改进视觉描述模型的方法，并使用来自 Visual Genome 数据集的属性和关系对该模型进行调整。在图像标题生成实验中，该方法取得了良好的表现。

May, 2022