Ferret: 任意粒度引用和定位任何内容

Oct, 2023

Ferret: 任意粒度引用和定位任何内容

Ferret: Refer and Ground Anything Anywhere at Any Granularity

Haoxuan You, Haotian Zhang, Zhe Gan, Xianzhi Du, Bowen Zhang...

TL;DR我们介绍了 Ferret，这是一个新的多模态大型语言模型（MLLM），能够理解图像中任何形状或粒度的空间引用，并准确地确定开放词汇的描述。

Abstract

We introduce ferret, a new multimodal large language model (MLLM) capable of understanding spatial referring of any shape or granularity w

ferret multimodal large language model spatial referring grounding region representation

发现论文，激发创造

Ferret-v2：针对较大语言模型进行指代和依存关系的改进基准

通过三个主要设计，Ferret-v2 对 Ferret 进行了重大升级，实现了任意分辨率的对齐、多粒度的视觉编码和三阶段的训练范式，从而在高分辨率处理和细粒度视觉处理方面提供了显著改进。

Apr, 2024

Ferret-UI: 基于多模态 LLMS 的移动 UI 理解

Ferret-UI 是一种专门用于增强对移动用户界面（UI）屏幕理解的多模态大型语言模型（MLLM），它具备指代、基础和推理能力，并在学习样本、编码和任务执行方面表现出色。

Apr, 2024

一个适用于生物医学领域的引用和定位的多模态大型语言模型

通过创建 Med-GRIT-270k 数据集和使用多任务学习，我们提出了用于生物医学的指示型多模态大型语言模型 (BiRD)，并通过大量实验证明了该数据集和 BiRD 模型在交互能力和智能生物医学助理的探索和开发上具有显著的参考价值。

Jun, 2024

多模态指导的细粒度视觉感知语言模型优化

提出了 AnyRef 模型，它能从多模态参考中生成像素级的物体感知和自然语言描述，从而提供更大的灵活性，超越了文本和区域提示，无需特定的设计。通过提出的重新聚焦机制，生成的定位输出可以更好地聚焦在参考对象上，从而隐含地融入了像素级的监督。该模型在多个基准测试中取得了最先进的结果，包括多模态参考分割和区域级参考表达生成。

Mar, 2024

Griffon：利用大型语言模型明示任何粒度下的所有对象位置

基于大规模视觉语言模型的对象感知与定位能力，我们引入一个新颖的语言提示定位数据集并提出了一种纯粹基于 LVLM 的基准模型 Griffon，该模型在细粒度的 RefCOCO 系列上达到了最先进的性能，并接近于专家模型 Faster RCNN 在检测基准 MSCOCO 上的能力。

Nov, 2023

Kestrel: 基于点定位的多模态部分感知 3D 视觉语义理解

Kestrel 是一种新颖的方法，为 3D MLLMs 赋予了部分感知的理解能力，并能够更好地解释和分割 3D 对象的各个部分。研究提出了两项新任务：局部感知点定位和局部感知点定位的字幕生成，并引入了用于学习和评估这些任务的数据集 3DCoMPaT-GRIN。实验证明 Kestrel 能够生成用户指定的分割掩码，这在现有的 3D MLLM 中尚不具备。因此，Kestrel 为评估 3D 对象的部分感知语言理解和分割定位能力建立了基准。

May, 2024

Space - 语言模型用于 3D 视觉基础

提出了一种空间语言模型用于 3D 视觉定位问题，使用基于 Transformer 的架构将空间嵌入和 DistilBert 的语言嵌入结合起来进行目标对象预测，能够在 ReferIt3D 提出的数据集上表现出竞争性，可以被应用于机器人等领域的视觉任务中。

Jul, 2021

LLM-Grounder：使用大型语言模型作为代理人进行开放词汇三维视觉对接

LLM-Grounder 是一种零样本、开放词汇量的基于大型语言模型（LLM）的 3D 视觉定位流水线。通过将复杂自然语言查询拆解为语义元素，并利用可视化定位工具识别 3D 场景中的对象，LLM-Grounder 评估所提议对象之间的空间和常识关系，从而做出最终的定位决策。该方法不需要有标签的培训数据，可应用于新型 3D 场景和任意文本查询，显示出最先进的零样本定位准确性。研究结果表明，LLM 显著提高了定位能力，尤其对于复杂语言查询，在机器人的 3D 视觉语言任务中，LLM-Grounder 是一种有效的方法。

Sep, 2023

GLaMM: 像素 grounding 大规模多模态模型

GLaMM 是首个能够无缝生成自然语言回复并与相应对象分割遮罩混合的模型，在图像和文本领域中以不同粒度的方式与模型进行交互，同时通过 GLaMM，还可以在诸多其他任务中有效地实现指代表达分割、图像和区域级别的字幕以及视觉语言对话。

Nov, 2023

ChatSpot: 通过精确引导指导调整，通过引导引导引导链接

基于精确的指代指令，我们提出了 ChatSpot，这是一个统一的端到端多模态大型语言模型，支持多种形式的交互，包括鼠标点击、拖放和绘制矩形框，从而提供更灵活、无缝的交互体验。实验证明 ChatSpot 具有良好的性能。

Jul, 2023