Nov, 2023

VIM:用于视觉嵌入式指令跟随的多模态大语言模型探测

TL;DR我们介绍了 VISUAL EMBEDDED INSTRUCTION (VIM),这是一个新的框架,旨在评估多模态大语言模型 (MLLMs) 在视觉指令跟随能力方面的表现。通过将指令嵌入到视觉场景中,VIM 对 MLLMs 提出挑战,对指令跟随需要强大的视觉解释能力。我们将 VIM 应用于不同的基准测试,包括 VQAv2、MME、MM-Vet 和 RefCOCO 系列,并通过三个不同的上下文学习设置:零次尝试、一次尝试和对应尝试,探索不同的 MLLMs。我们观察到,开源的 MLLMs 与 GPT-4V 之间存在显著的性能差异,这意味着它们在视觉指令理解方面的熟练程度还不够好。我们的结果突出了提高 MLLMs 在指令跟随方面能力的有希望方向。我们的目标是通过 VIM 作为一个有用的规范来推动该领域的最新技术进展和推动进一步的发展。