揭示参照理解对多模态语言模型的力量

Oct, 2023

揭示参照理解对多模态语言模型的力量

Pink: Unveiling the Power of Referential Comprehension for Multi-modal LLMs

Shiyu Xuan, Qingpei Guo, Ming Yang, Shiliang Zhang

TL;DR该论文提出了一种新的方法来增强多模态大语言模型的指称理解能力，通过使用边界框的坐标表示图像中的指称对象，并将其转化为特定格式的文本，使模型能够以自然语言处理坐标，同时通过自洽引导方法和参数高效的调整框架进一步提升指称理解能力。实验结果表明，该方法在传统的视觉语言和指称理解任务中的性能优于其他方法。

Abstract

multi-modal large language models (MLLMs) have shown remarkable capabilities in many vision-language tasks. Nevertheless, most MLLMs still lack the referential comprehension (RC) ability to identify a specific ob

multi-modal large language models referential comprehension bounding box self-consistent bootstrapping method parameter-efficient tuning framework

发现论文，激发创造

多模态指导的细粒度视觉感知语言模型优化

提出了 AnyRef 模型，它能从多模态参考中生成像素级的物体感知和自然语言描述，从而提供更大的灵活性，超越了文本和区域提示，无需特定的设计。通过提出的重新聚焦机制，生成的定位输出可以更好地聚焦在参考对象上，从而隐含地融入了像素级的监督。该模型在多个基准测试中取得了最先进的结果，包括多模态参考分割和区域级参考表达生成。

Mar, 2024

大型多模态模型时代中的指代表达理解评估再探

参考表达理解（REC）涉及根据文本描述定位目标实例。本研究质疑现有基准对大型多模态模型（LMMs）的全面性能力，通过手动检查现有基准，发现高标注错误率，并通过排除问题实例和重新评估多种 LMMs 来解决。为了评估现代 REC 模型，引入了 Ref-L4，一个全面的 REC 基准。在 Ref-L4 上评估了 24 个大模型并提供了有价值的见解。

Jun, 2024

一种用于指代表达理解的实时跨模态相关性滤波方法

本论文提出了一种新的 Realtime Cross-modality Correlation Filtering 方法 (RCCF)，将指称表达理解重新表述为一种相关滤波过程，使得物体的定位更准确，在 RefClef、RefCOCO、RefCOCO + 和 RefCOCOg 基准测试中取得领先的性能，通过 RCCF 方法，我们的模型可以在 40 FPS 的速度下实现了超过之前最好结果的性能。

Sep, 2019

ChatSpot: 通过精确引导指导调整，通过引导引导引导链接

基于精确的指代指令，我们提出了 ChatSpot，这是一个统一的端到端多模态大型语言模型，支持多种形式的交互，包括鼠标点击、拖放和绘制矩形框，从而提供更灵活、无缝的交互体验。实验证明 ChatSpot 具有良好的性能。

Jul, 2023

指代表达理解：方法与数据集综述

本文调查了现代方法解决自然语言与计算机视觉领域中的指代表达理解问题，包括用于编码视觉和文本模态的机制，结构化图表示的模块化架构和基于图形的模型，以及针对小型数据集的结果，提出了复合指称表述理解方向的潜在未来研究方向。

Jul, 2020

双模块记忆的持续指代理解

本文提出了 Continual Referring Expression Comprehension (CREC) 新的设置，通过 Dual Modular Memorization (DMM) 方法，不断改进模型在连续任务上的性能，避免遗忘之前学到的知识并减少重复重新训练的需求。作者在三个常用 REC 数据集上构建了新的 CREC 基准，并通过大量实验证明 DMM 方法显著优于其他方法。

Nov, 2023

面向语义的动态本地化和细化，用于指代图像分割

本论文提出一种基于逐步学习区分性多模态特征的方法，通过不断更新查询作为目标对象的表示，强化与之相关的多模态特征，逐渐从定位中心转为分割中心，实现逐步修复缺失对象部分和 / 或去除多余部分，并在 RefCOCO、RefCOCO+ 和 G-Ref 数据集上的实验结果表明其优于现有方法。

Mar, 2023

超越边界框：目标检测的多模态知识学习

该论文介绍了一种利用语言提示来增强物体检测的方法，用 bounding box annotations 填充语言提示中，利用跨模态信息将语言知识注入到检测模型中，同时，该方法还生成了 hard negatives 进一步提升检测性能。该方法在 MS-COCO 和 OpenImages 数据集上实现了最新的领先水平。

May, 2022

生成和理解明确的物体描述

本文提出了一种生成图像中特定物体或区域（即指代表达）的明确描述并理解或推断所描述的物体的方法。实验表明，该方法优于之前没有考虑场景中其他潜在歧义对象而生成对象描述的方法。作者基于深度学习方法取得的最近成功，灵感提出了该方法。作者提供了一个基于 MS-COCO 的新的大规模指代表达数据集，并发布了数据集和可视化和评估工具箱。

Nov, 2015

MR-MLLM: 多模态理解和视觉感知的相互增强

一个名为 Mutually Reinforced Multimodal Large Language Model (MR-MLLM) 的新框架，通过共享查询融合机制和增强的跨模态集成方法，结合视觉感知和多模态理解，以及混合了感知信息的提示生成机制，提供更准确的多模态解释，在各种多模态理解和视觉感知任务中展现卓越性能。

Jun, 2024