Aug, 2024

MMIU:用于评估大型视觉语言模型的多模态多图像理解

TL;DR本研究解决了大型视觉语言模型(LVLMs)多图像处理能力评估不足的问题。提出的多模态多图像理解(MMIU)基准是一个全面的评估套件,涵盖了7种多图像关系、52个任务和77K图像,揭示了即使是最先进的模型在空间理解任务中仍面临显著挑战。这一基准有望推动LVLM研究和开发前沿的发展。