EAGLE：迈向高效任意指称视觉提示理解的多模态大型语言模型

Sep, 2024

EAGLE：迈向高效任意指称视觉提示理解的多模态大型语言模型

EAGLE: Towards Efficient Arbitrary Referring Visual Prompts Comprehension for Multimodal Large Language Models

Jiacheng Zhang, Yang Jiao, Shaoxiang Chen, Jingjing Chen, Yu-Gang Jiang

TL;DR本研究针对现有多模态大型语言模型（MLLM）在处理任意指称视觉提示时的有效性不足和架构冗余问题，提出了EAGLE方法，显著减少了训练成本。EAGLE通过保持指称视觉提示的原始格式，并引入空间概念嵌入，从而提升了模型对特定空间区域的语义理解，展示了在多样化实际场景中的高效表现。

Abstract

Recently, Multimodal Large Language Models (MLLMs) have sparked great research interests owing to their exceptional content-reasoning and instruction-following capabilities. To effectively instruct an MLLM, in addition to conventional language expressions, the practice of referring to

发现论文，激发创造

LION：赋能双层视觉知识的多模态大语言模型

多模态大型语言模型（MLLMs）借助视觉知识的两个层面提升了理解和感知多模态信号的能力。通过逐步整合细粒度的空间感知视觉知识和软提示高级语义视觉证据的方法，我们的模型在多个多模态基准测试中展示了过人的优越性能。

Nov, 2023

构建大型多模态模型理解任意视觉提示

该研究介绍了一种新颖的多模态模型，可以解码任意视觉提示，通过在RGB图像上直接叠加视觉标记的方式，实现了对特定区域的理解，在区域理解任务上取得了最先进的性能，并提出了ViP-Bench，一个综合评估模型在理解多个维度上的视觉提示能力的基准，为未来的研究提供了可能。

Dec, 2023

VRPTEST：大型多模态模型中视觉引导提示的评估

通过对大型多模态模型（LMMs）的全面评估和基于视觉引导提示的不同策略的现有研究，本研究找到了提高LMMs性能的潜力和改进空间，并揭示了视觉引导提示对LMMs准确性的重要影响。

Dec, 2023

绘制与理解：利用视觉提示使MLLMs能够理解您想要的内容

我们介绍了Draw-and-Understand项目，其中包括一种新的多模域数据集和一种具有挑战性的视觉提示基准测试。我们提出了SPHINX-V，一种新的端到端训练的多模域大型语言模型，用于连接视觉编码器、视觉提示编码器和语言理解模型，以实现各种视觉提示和语言理解。同时，我们还提出了MDVP-Data和MDVP-Bench，用于促进多模域大型语言模型中的视觉提示研究，并提供了多领域数据集和具有挑战性的基准测试。我们的实验结果表明，SPHINX-V通过视觉提示展现出了卓越的多模交互能力，并在详细的像素级描述和问答能力方面取得了显著的改进。

Mar, 2024

探索视觉提示在多模态大型语言模型中的可转移性

通过Transferable Visual Prompting (TVP)这一新方法，在只对一个模型进行训练的情况下，有效改善多样化的Multimodal Large Language Models(MLLMs)的性能，以提高其在下游任务中的应用能力。

Apr, 2024

重思基于外部知识的多模态大语言模型的视觉提示

通过将细粒度的知识信息直接嵌入空间嵌入图作为视觉提示，本论文提出的新的视觉提示方法可轻松地融入各种多模态大语言模型，从而显著提高它们的视觉理解性能。经过严格的实验证明，我们的方法可以增强多模态大语言模型在九个基准测试中的性能，增强它们的细粒度上下文感知能力。

Jul, 2024

ControlMLLM：无训练的多模态大语言模型视觉提示学习

本研究解决了多模态大语言模型（MLLM）中视觉提示注入的无训练方法缺口。我们提出了一种通过可学习的视觉令牌优化来实现该目的的新颖方法，并在推理阶段优化视觉令牌，以增强注意力图中参考区域的强度。研究结果表明，该方法不仅具备良好的可控性和可解释性，还能有效整合参考能力。

Jul, 2024

鹰：通过大型语言模型赋能的视觉指导调优提升几何推理

该研究针对现有多模态大型语言模型在几何问题解决中的视觉感知不足进行探讨，发现其存在显著的几何感知不准确和幻觉问题。提出EAGLE框架，通过两阶段的视觉增强提升几何推理能力，在多个基准测试中表现优异，超越了现有先进模型，展示了其在几何推理领域的潜在影响。

Aug, 2024

鹰：探索具有编码器混合的多模态大型语言模型的设计空间

本研究针对多模态大型语言模型（MLLMs）中复杂视觉信息解读的不足，提出了一种新颖的设计空间探索方法，强调编码器的组合与解析度。研究发现，通过简单地连接来自互补视觉编码器的视觉标记，能够与更复杂的组合结构一样有效，同时引入的预对齐技术有助于提升模型一致性，使得新模型鹰在主要基准测试中表现优于其他开源模型。

Aug, 2024

EAGLE：朝着高效任意参考视觉提示的理解迈进

本研究解决了多模态大型语言模型在理解任意参考视觉提示时的效率问题，通过提出EAGLE模型，能够有效减少训练工作。该方法将参考视觉提示作为空间概念嵌入至模型中，从而提升了模型的语义理解能力，并结合几何无关学习的理念，验证了其在多样化参考提示场景中的卓越表现。

Sep, 2024