通过多实例视觉提示生成器增强多模态大语言模型以实现视觉表征丰富化

Jun, 2024

通过多实例视觉提示生成器增强多模态大语言模型以实现视觉表征丰富化

Enhancing Multimodal Large Language Models with Multi-instance Visual Prompt Generator for Visual Representation Enrichment

PDF

Wenliang Zhong, Wenyi Wu, Qi Li, Rob Barton, Boxin Du...

TL;DR本研究探讨了多模态大型语言模型的性能，通过利用视觉适配器将视觉表示与语言模型相结合，在多个视觉语言任务中取得了最先进的表现。研究还提出了一种通用组件，名为多示例视觉提示生成器（MIVPG），通过利用图像或样本相同的补丁之间的实例相关性，将丰富的视觉表示合并到语言模型中。对来自不同场景的三个公共视觉 - 语言数据集进行定量评估，结果表明所提出的 MIVPG 可以改善主要的视觉 - 语言任务中的 Q-former 模型。

Abstract

multimodal large language models (MLLMs) have achieved SOTA performance in various visual language tasks by fusing the visual representations with LLMs leveraging some visual adapters. In this paper, we first est

multimodal large language models visual adapters multi-instance learning multi-instance visual prompt generator vision-language datasets

发现论文，激发创造

探索视觉提示在多模态大型语言模型中的可转移性

通过 Transferable Visual Prompting (TVP) 这一新方法，在只对一个模型进行训练的情况下，有效改善多样化的 Multimodal Large Language Models (MLLMs) 的性能，以提高其在下游任务中的应用能力。

Apr, 2024

通过动态视觉提示将预训练语言模型应用于视觉语言任务

本文旨在研究使用预训练语言模型（Pre-trained language models，PLMs）作为一个独立的模型来进行视觉语言推理任务。提出了一个名为 Dynamic Visual Prompting（DVP）的新型转移学习方法，通过搜索算法，在保持 PLMs 参数完整性的情况下，有效地将其与不同的视觉语言任务相结合。经过广泛的实验验证，DVP 在效率和性能方面都具有优势，并且能够很好地适应预训练语言模型与 VL 任务相结合的需求。

Jun, 2023

意识到提示的适配器：为多模态大型语言模型学习自适应的视觉特征

为了弥补视觉和语言模态之间的差距，我们提出了 prompt-aware 适配器，这些适配器根据提示的特定焦点动态嵌入视觉输入，以从提示中捕捉到最相关的视觉线索，从而显著增强了大型语言模型理解和解释视觉内容的能力。实验表明 prompt-aware 适配器在各种视觉问答任务（如计数和位置推理）中的有效性。

May, 2024

跨语言模型传递视觉提示生成器

本文旨在探究现有 VPG 在 VL-LLMs 之间的可迁移性，并通过提出的 VPGTrans 方案，成功在不牺牲性能的情况下将 VPG 从 BLIP-2 OPT $_{2.7B}$ 迁移到了 BLIP-2 OPT $_{6.7B}$，在迁移过程中节省了 10 倍的时间和 10.7％的训练数据。

May, 2023

基于多模态大语言模型的联合视觉与文本提示改善目标中心感知

使用视觉和文本提示的新方法 (VTPrompt) 提高了 Multimodal Large Language Models 在物体感知方面的能力，并在三个基准测试上表现出显著的改进。

Apr, 2024

赋能视觉语言模型来遵循交替视觉语言指令

综合评估了多模态大型语言模型的指导遵循能力，并引入了 I4 基准测试，提出了一种智能控制知识重新注入模块和无标注跨注意力引导的反事实图像训练策略，从而实现了在复杂的纷繁视觉语言指令中有效处理的新型多模态大型语言模型 Cheetah，达到了 I4 中所有任务的零样本表现的最新水平，并与当前 MME 基准的最新指导优化模型相比具有竞争力的性能。

Aug, 2023

面向生成视觉问答的多模态提示检索

提出了一种结合多模态提示检索和生成模型的方法，该方法可以在医学领域的视觉问题回答任务中比非检索方法提高高达 30％的精度。

Jun, 2023

利用 LLMs 自动化零射视觉识别的元提示

通过 Meta-Prompting for Visual Recognition (MPVR) 方法，仅凭目标任务的简短自然语言描述和相关类别标签的最小信息输入，自动产生一组多样的类别特定提示，从而实现强大的零样本分类器。在多个不同领域的流行的零样本图像识别基准上，使用多个 LLMs 和 VLMs 测试，MPVR 可以有效地推广，比 CLIP 提高了最高 19.8％和 18.2％（平均 20 个数据集上分别为 5.0％和 4.5％），依赖于 GPT 和 Mixtral LLMs。

Mar, 2024

多模态大型语言模型对图像质量评估的全面研究

通过对多模态大语言模型（MLLMs）在图像质量评估（IQA）中的应用进行综合系统的研究和探索，发现仅有关闭源 GPT-4V 能够合理地描述人类对图像质量的感知，但在细粒度的质量变化（如颜色差异）和多图像的视觉质量比较等任务上较为薄弱。

Mar, 2024

绘制与理解：利用视觉提示使 MLLMs 能够理解您想要的内容

我们介绍了 Draw-and-Understand 项目，其中包括一种新的多模域数据集和一种具有挑战性的视觉提示基准测试。我们提出了 SPHINX-V，一种新的端到端训练的多模域大型语言模型，用于连接视觉编码器、视觉提示编码器和语言理解模型，以实现各种视觉提示和语言理解。同时，我们还提出了 MDVP-Data 和 MDVP-Bench，用于促进多模域大型语言模型中的视觉提示研究，并提供了多领域数据集和具有挑战性的基准测试。我们的实验结果表明，SPHINX-V 通过视觉提示展现出了卓越的多模交互能力，并在详细的像素级描述和问答能力方面取得了显著的改进。

Mar, 2024