Jun, 2024

MuirBench: 强大多图像理解综合基准测试

TL;DRMuirBench 是一个全面的基准测试,侧重于多模式 LLM 的强大的多图像理解能力。MuirBench 由 12 个不同的多图像任务(如场景理解,排序)组成,涉及 10 个多图像关系类别(如多视图关系,时间关系)。通过评估 20 种最新的多模态 LLMs,结果显示即使在表现最佳的模型 GPT-4o 和 Gemini Pro 面对 MuirBench 时也面临挑战,准确率分别为 68.0% 和 49.3%。基于单个图像训练的开源多模态 LLMs 很难推广到多图像问题,准确率低于 33.3%。这些结果凸显了 MuirBench 的重要性,鼓励社区开发能够超越单个图像的多模态 LLMs,并提出未来改进的潜在途径。