Shikra: 发挥多模 LLM 的指代对话魔力

Jun, 2023

Shikra: 发挥多模 LLM 的指代对话魔力

Shikra: Unleashing Multimodal LLM's Referential Dialogue Magic

Keqin Chen, Zhao Zhang, Weili Zeng, Richong Zhang, Feng Zhu...

TL;DR本文介绍一种名为 Shikra 的 MLLM 模型，具备自然语言处理输入输出并能处理视觉相关任务，包括定位相关的任务，如 REC 和 PointQA，以及常规的视觉语言任务，如图像字幕和 VQA，实验结果表明其性能良好，能够进行指定物体的坐标提供，并比较用户指定区域的相似性。

Abstract

In human conversations, individuals can indicate relevant regions within a scene while addressing others. In turn, the other person can then respond by referring to specific regions if necessary. This natural referential ability in dialogue remains absent in current multimodal large language

multimodal large language models spatial coordinate inputs vision encoder alignment layer referential dialogue

发现论文，激发创造

ChatSpot: 通过精确引导指导调整，通过引导引导引导链接

基于精确的指代指令，我们提出了 ChatSpot，这是一个统一的端到端多模态大型语言模型，支持多种形式的交互，包括鼠标点击、拖放和绘制矩形框，从而提供更灵活、无缝的交互体验。实验证明 ChatSpot 具有良好的性能。

Jul, 2023

通过文本生成解决视觉驱动对话中的引用

通过对话互动生成确切描述来增强视觉引导对话中视觉语言模型（VLMs）的话语处理能力，并使用预训练的 VLMs 在零样本情况下识别参照物，从而提高了参照的准确性和效果。

Sep, 2023

Space - 语言模型用于 3D 视觉基础

提出了一种空间语言模型用于 3D 视觉定位问题，使用基于 Transformer 的架构将空间嵌入和 DistilBert 的语言嵌入结合起来进行目标对象预测，能够在 ReferIt3D 提出的数据集上表现出竞争性，可以被应用于机器人等领域的视觉任务中。

Jul, 2021

多轮多模态指称及锚定

我们建立了一个名为多模态多轮指称及定位的新任务的基准，并提出了一个名为 ChatterBox 的视觉语言模型，通过协同处理视觉和语言任务，ChatterBox 在多模态对话场景中具有复杂而精确的交互中相较于现有模型在实例级别的理解上表现出更好的性能。

Jan, 2024

揭示参照理解对多模态语言模型的力量

该论文提出了一种新的方法来增强多模态大语言模型的指称理解能力，通过使用边界框的坐标表示图像中的指称对象，并将其转化为特定格式的文本，使模型能够以自然语言处理坐标，同时通过自洽引导方法和参数高效的调整框架进一步提升指称理解能力。实验结果表明，该方法在传统的视觉语言和指称理解任务中的性能优于其他方法。

Oct, 2023

大型语言模型下的交互式文本图像检索：一种即插即用方法

该论文主要关注互动式文本图像检索任务中对话形式的上下文查询问题。PlugIR 方法利用 LLMs 的一般指令遵循能力以两种方式解决了这个问题。该方法不仅提出了一种新颖的评估指标 BRI，还展示了在各种基准测试中优于零射击和微调基准线的优越性能。

Jun, 2024

多模态指导的细粒度视觉感知语言模型优化

提出了 AnyRef 模型，它能从多模态参考中生成像素级的物体感知和自然语言描述，从而提供更大的灵活性，超越了文本和区域提示，无需特定的设计。通过提出的重新聚焦机制，生成的定位输出可以更好地聚焦在参考对象上，从而隐含地融入了像素级的监督。该模型在多个基准测试中取得了最先进的结果，包括多模态参考分割和区域级参考表达生成。

Mar, 2024

Chat-3D v2：通过对象标识符将 3D 场景与大型语言模型相连接

我们提出了一种使用对象标识符在对话中自由引用对象的方法，通过学习每个对象的属性感知令牌和关系感知令牌来解决建立可靠的对象 - 标识符一对一对应关系以及在 LLM 的嵌入空间中融入复杂的空间关系的挑战，并通过指令调整在各种下游任务上对模型进行微调，实验证明了我们提出方法的有效性，同时创建了一个包含丰富对象标识符的 3D 场景字幕数据集，以进一步探索对象标识符在有效对象引用和精确场景理解中的能力。

Dec, 2023

LAVT：用于参照图像分割的语言感知视觉 Transformer

本研究提出一种新的方法，在视觉 Transformer 编码器网络的中间层通过对语言和视觉特征进行交叉融合，实现更好的交叉模态对齐，进而通过轻量级的掩模预测器得到准确的分割结果，该方法在 RefCOCO、RefCOCO + 和 G-Ref 数据集上均超越了以往的最优方法。

Dec, 2021

VLT: 面向参考分割的视觉语言变换器和查询生成

该研究提出了一种轻量级的视觉 - 语言 Transformer 框架来实现引用分割，其中包括 Query Generation Module，Query Balance Module 以及 masked contrastive learning，它们能够动态生成多个特定于输入的查询，以明晰理解语言表达的多样性，同时针对不同的语言表达方式进行了明确的跨样本学习。该框架在五个数据集上都实现了最新的引用分割成果。

Oct, 2022