MuirBench: 强大多图像理解综合基准测试

Jun, 2024

MuirBench: 强大多图像理解综合基准测试

MuirBench: A Comprehensive Benchmark for Robust Multi-image Understanding

Fei Wang, Xingyu Fu, James Y. Huang, Zekun Li, Qin Liu...

TL;DRMuirBench 是一个全面的基准测试，侧重于多模式 LLM 的强大的多图像理解能力。MuirBench 由 12 个不同的多图像任务（如场景理解，排序）组成，涉及 10 个多图像关系类别（如多视图关系，时间关系）。通过评估 20 种最新的多模态 LLMs，结果显示即使在表现最佳的模型 GPT-4o 和 Gemini Pro 面对 MuirBench 时也面临挑战，准确率分别为 68.0% 和 49.3%。基于单个图像训练的开源多模态 LLMs 很难推广到多图像问题，准确率低于 33.3%。这些结果凸显了 MuirBench 的重要性，鼓励社区开发能够超越单个图像的多模态 LLMs，并提出未来改进的潜在途径。

Abstract

We introduce muirbench, a comprehensive benchmark that focuses on robust multi-image understanding capabilities of →

muirbench multi-image understanding multimodal llms benchmark multi-image tasks

发现论文，激发创造

多模态理解排行榜：文本与图像

Multi 是一种多模态大型语言模型（MLLMs）的先进基准测试，提供了综合数据集，用于评估 MLLMs 在理解复杂图表、科学问题等方面的表现，并挑战包括公式推导、图像细节分析和跨模态推理在内的多样任务。评估结果表明，MLLMs 在 Multi 上取得了显著的进展，与其他 MLLMs 相比，GPT-4V 的准确率达到了 63.7%，Multi 不仅是一个强大的评估平台，也为专家级 AI 的发展铺平了道路。

Feb, 2024

视觉与语言模型中的多图像理解基准测试：感知、知识、推理和多跳推理

通过引入多图像关系基准（MIRB），我们评估了视觉语言模型（VLMs）在比较、分析和推理多个图像时的能力，并发现开源 VLMs 在单图像任务中接近 GPT-4V 的性能，但在多图像推理任务中存在显著的性能差距。我们的发现表明，即使是最先进的 GPT-4V 模型在我们的基准测试中也存在困难，强调了该领域进一步研究和开发的必要性。我们相信我们的 MIRB 可以作为开发下一代多模态模型的测试平台。

Jun, 2024

MultiBench: 多模态表示学习的多尺度基准

MultiBench 是一个系统性和统一化的基准测试，跨越 15 个数据集，10 种模态，20 种预测任务和 6 个研究领域。MultiBench 提供自动化的端到端机器学习流程，简化和标准化数据加载，实验设置和模型评估。随着大量的实践证明，不同研究领域提出的方法可以改善 9/15 数据集的最先进性能。MultiBench 处理了跨模态一般化，复杂性和健壮性的问题，对于未来研究具有重要的挑战性，包括可扩展性到大规模多模态数据集和对现实缺陷的健壮性。

Jul, 2021

MMT-Bench：一个综合评估大型视觉语言模型向多任务人工通用智能发展的多模态基准

该研究介绍了 MMT-Bench，这是一个综合性评估基准，旨在评估大规模视觉 - 语言模型（LVLM）在多种跨领域的多模态任务上的能力，并促进下一代通用多模态智能基础模型的发展。

Apr, 2024

II-Bench：基于多模态大型语言模型的图像影响理解基准

通过对多个多模态大型语言模型进行实验，我们发现高级图片感知能力方面存在较大差距，并且这些模型在理解高级语义和捕捉图片细节方面存在限制。此外，当提供图片情感极性提示时，大多数模型表现出更好的准确性，暴露出它们对图片情感的内在理解不足。

Jun, 2024

VisualWebBench：多模态 LLM 在网页理解和解释中的发展程度如何？

多模式大型语言模型在网页相关任务中表现出了很大的潜力，评估其在网页领域的性能仍然是一个挑战，因为缺乏全面的基准测试。本文引入了一个名为 ench {} 的多模式基准测试，其设计旨在评估 ML 近几年在网页任务中的能力。通过在 ench {} 上评估了 14 个开源 MLLMs，如 Gemini Pro、Claude-3 系列和 GPT-4V (ision)，我们揭示了重要挑战和性能差距。进一步的分析突出了当前 MLLMs 的限制，包括在文本丰富环境中缺乏足够的基础知识，并在低分辨率图像输入下表现不佳。我们相信 ench {} 将成为研究界宝贵的资源，并为网页相关应用的更加强大和多功能的 MLLMs 的创建做出贡献。

Apr, 2024

MileBench: 在长上下文中评测多语言大型语言模型

该研究旨在通过引入 MileBench 基准来系统评估多模态大型语言模型（MLLMs）在长上下文和多图像任务中的适应能力，并发现开源 MLLMs 在长上下文情境中面临着挑战，尤其在涉及多图像的情景下。

Apr, 2024

MIA-Bench: 多模态 LLMs 的更好指令遵循评估

我们引入了 MIA-Bench，一个新的基准测试，旨在评估多模态大型语言模型在其严格遵循复杂指令方面的能力。通过评估各种最先进的多模态大型语言模型，我们发现性能存在显著差异，突出了指令准确性方面的改进空间。此外，我们创建了额外的训练数据，并探索监督微调来提高模型在严格遵循指令的能力，而不牺牲其他任务的性能。我们希望这个基准测试不仅可用于测量多模态大型语言模型对指令的遵循程度，还能指导未来的多模态大型语言模型训练方法的发展。

Jul, 2024

MVBench：全面多模式视频理解基准测试

通过引入全面的多模式视频理解基准 (MVBench)，该研究提出了一种新的静态到动态方法，将静态任务转化为动态任务，评估多模式大型语言模型 (MLLMs) 的时间理解能力，并且开发了一种强大的视频 MLLM 基准模型 VideoChat2，检验结果显示 VideoChat2 在 MVBench 上的性能超过其他领先模型 15% 以上。

Nov, 2023

MMBench: 您的多模型是否是全能选手？

提出了一种新的多模式基准测试方法 MMBench，通过精心策划的数据集和结合 CircularEval 策略和 ChatGPT 的方法来对大视觉语言模型进行综合评估，旨在帮助研究社区更好地评估其模型以及鼓励未来的进步。

Jul, 2023