VIM：用于视觉嵌入式指令跟随的多模态大语言模型探测

Nov, 2023

VIM：用于视觉嵌入式指令跟随的多模态大语言模型探测

VIM: Probing Multimodal Large Language Models for Visual Embedded Instruction Following

Yujie Lu, Xiujun Li, William Yang Wang, Yejin Choi

TL;DR我们介绍了 VISUAL EMBEDDED INSTRUCTION (VIM)，这是一个新的框架，旨在评估多模态大语言模型 (MLLMs) 在视觉指令跟随能力方面的表现。通过将指令嵌入到视觉场景中，VIM 对 MLLMs 提出挑战，对指令跟随需要强大的视觉解释能力。我们将 VIM 应用于不同的基准测试，包括 VQAv2、MME、MM-Vet 和 RefCOCO 系列，并通过三个不同的上下文学习设置：零次尝试、一次尝试和对应尝试，探索不同的 MLLMs。我们观察到，开源的 MLLMs 与 GPT-4V 之间存在显著的性能差异，这意味着它们在视觉指令理解方面的熟练程度还不够好。我们的结果突出了提高 MLLMs 在指令跟随方面能力的有希望方向。我们的目标是通过 VIM 作为一个有用的规范来推动该领域的最新技术进展和推动进一步的发展。

Abstract

We introduce visual embedded instruction (vim), a new framework designed to evaluate the visual instruction following capability of Multim

visual embedded instruction multimodal large language models instruction following vim mllms capabilities

发现论文，激发创造

赋能视觉语言模型来遵循交替视觉语言指令

综合评估了多模态大型语言模型的指导遵循能力，并引入了 I4 基准测试，提出了一种智能控制知识重新注入模块和无标注跨注意力引导的反事实图像训练策略，从而实现了在复杂的纷繁视觉语言指令中有效处理的新型多模态大型语言模型 Cheetah，达到了 I4 中所有任务的零样本表现的最新水平，并与当前 MME 基准的最新指导优化模型相比具有竞争力的性能。

Aug, 2023

VisLingInstruct: 用自主指令优化提升多模式语言模型中的零样本学习

VisLingInstruct 通过自主评估和优化教学文本的过程，改善了多模态语言模型中视觉感知和语言表达的协同作用，这在零样本学习中显著提高了多模态任务的性能。

Feb, 2024

MM-Instruct: 大型多模态模型对齐的生成视觉指令

该研究介绍了 MM-Instruct，这是一个大规模、多样化和高质量的视觉指导数据集，旨在增强大型多模态模型（LMMs）的指令跟随能力，并通过使用现有的 LLMs 从大规模图像字幕数据集生成新的视觉指导数据，并介绍了一个基于生成的指导数据来评估现有 LMMs 的指令跟随能力的基准。

Jun, 2024

走向面向事件的长视频理解

通过引入基于现有数据集和人类注释的面向事件的长视频理解基准测试集 Event-Bench 以及使用合并的、事件密集型视频指令来增强视频 MLLMs 的低成本方法 VIM，本研究表明 GPT-4o 模型超过了最佳开源模型 41.42％，在 Event-Bench 上表现出 53.33 的整体准确率，优于最先进的开源模型和 GPT-4V。

Jun, 2024

MIA-Bench: 多模态 LLMs 的更好指令遵循评估

我们引入了 MIA-Bench，一个新的基准测试，旨在评估多模态大型语言模型在其严格遵循复杂指令方面的能力。通过评估各种最先进的多模态大型语言模型，我们发现性能存在显著差异，突出了指令准确性方面的改进空间。此外，我们创建了额外的训练数据，并探索监督微调来提高模型在严格遵循指令的能力，而不牺牲其他任务的性能。我们希望这个基准测试不仅可用于测量多模态大型语言模型对指令的遵循程度，还能指导未来的多模态大型语言模型训练方法的发展。

Jul, 2024

基于深度学习的视觉 - 语言任务统一框架

通过引入 pool-adapter 模块，保留视觉嵌入的位置信息，我们的 InfMLLM 方法在图像描述、视觉问题回答和视觉定位等任务中达到了与最新的多模态大语言模型相当或超越的性能。

Nov, 2023

与 LLM 对齐：一种用于编码视觉皮层 fMRI 活动的新型多模态训练范式

提出了一种新的多模态训练范式，用于编码视觉皮层中的 fMRI 活动。使用预训练的 LLM 和对比损失函数完成图像和文本信息的对齐，提高了视觉编码模型的性能。

Jan, 2024

指令引导下的视觉遮罩化

通过引入指导型视觉遮罩（IVM）来改进多模式指令跟踪，本研究在多模式设置下证明了 IVM 的适用性，并显示出在图像与指令之间进行准确的视觉对齐的优势。通过构建视觉遮罩，IVM 增强的多模式模型能够更好地关注与任务相关的图像区域，从而取得更好的指令跟踪表现。实验结果表明，IVM 作为一种即插即用工具，显著提升了多样化的多模式模型性能，在各种复杂多模式基准上取得了新的最佳结果。

May, 2024

MMICL: 视觉语言模型的多模态上下文学习

通过考虑模型和数据的角度，提出了 MMICL 去解决图像与文本交叉多模态提示的问题，通过无需训练的数据更好地适应用户真实应用中复杂的提示，其中包括多模态上下文与交叉的图像和文本、每个图像的文本参考以及具有空间、逻辑或时间关系的多图像数据。在广泛的视觉 - 语言任务中，特别是在复杂推理基准测试中，MMICL 取得了新的最先进的零样本和少样本性能。同时，对 ScienceQA-IMG 上的实验表明 MMICL 成功缓解了视觉 - 语言模型中的语言偏差问题，我们相信这是 MMICL 卓越性能背后的原因。

Sep, 2023

E-ViLM: 通过语义量化分词的掩码视频建模的高效视频语言模型

通过利用多种形式（例如视频、文本和图像）的多样性多模态数据来构建可扩展的模型，本文提出一种高效的视频 - 语言模型（E-ViLM）和掩码视频建模（MVM）模式，并辅以语义向量量化的分词器。通过简化的任务和常规的预训练模型，E-ViLM 能够从视频 - 语言语料库中学习表达性的表示，并在视频问答、文本到视频检索等广泛的视频 - 语言任务中具有很好的泛化性能，实现了明显的效率提升。

Nov, 2023