MMDU：多轮多图像对话理解基准及用于 LVLM 的指令调优数据集

Jun, 2024

MMDU：多轮多图像对话理解基准及用于 LVLM 的指令调优数据集

MMDU: A Multi-Turn Multi-Image Dialog Understanding Benchmark and Instruction-Tuning Dataset for LVLMs

Ziyu Liu, Tao Chu, Yuhang Zang, Xilin Wei, Xiaoyi Dong...

TL;DR生成自然且有意义的回复以与多模态人类输入进行交流是大型视觉语言模型（LVLMs）的基本能力。我们引入 MMDU 作为一个综合基准以及 MMDU-45k 作为一个大规模的指导调整数据集，旨在评估和提高 LVLMs 在多轮和多图像对话中的能力。

Abstract

Generating natural and meaningful responses to communicate with multi-modal human inputs is a fundamental capability of Large Vision-Language Models(lvlms). While current open-source lvlms demonstrate promising p

large vision-language models lvlms mmdu multi-turn and multi-image conversations instruction tuning

发现论文，激发创造

MMMU: 一个专家级通用人工智能的大规模多学科多模态理解与推理基准

我们介绍了 MMMU：一个新的基准，旨在评估多模态模型在需要大学级学科知识和深思熟虑的大规模跨学科任务上的表现。MMMU 包括来自大学考试、测验和教科书的 11500 个精心收集的多模态问题，涵盖六个核心学科：艺术与设计、商业、科学、健康与医药、人文社会科学和技术与工程学。这些问题涵盖 30 个学科和 183 个子领域，包括 30 种高度异质的图像类型，如图表、图示、地图、表格、乐谱和化学结构。与现有基准不同，MMMU 侧重于使用领域特定知识进行高级感知和推理，挑战模型执行类似于专家面临的任务。我们对 14 个开源 LMM 和专有的 GPT-4V (ision) 进行了评估，突显了 MMMU 所带来的巨大挑战。即使是先进的 GPT-4V 只能达到 56％的准确率，表明有很大的改进空间。我们相信 MMMU 将推动社区构建面向专家人工通用智能的下一代多模态基础模型。

Nov, 2023

多模态理解排行榜：文本与图像

Multi 是一种多模态大型语言模型（MLLMs）的先进基准测试，提供了综合数据集，用于评估 MLLMs 在理解复杂图表、科学问题等方面的表现，并挑战包括公式推导、图像细节分析和跨模态推理在内的多样任务。评估结果表明，MLLMs 在 Multi 上取得了显著的进展，与其他 MLLMs 相比，GPT-4V 的准确率达到了 63.7%，Multi 不仅是一个强大的评估平台，也为专家级 AI 的发展铺平了道路。

Feb, 2024

MMDialog：面向多模态开放领域对话的大规模多轮对话数据集

本文介绍了 MMDialog 数据集、提出并规范了两个基于检索和生成场景的反应生成任务，还构建了两个基线，并提出了一种新的评估指标 MM-Relevance，用于衡量多模态反应。

Nov, 2022

MMT-Bench：一个综合评估大型视觉语言模型向多任务人工通用智能发展的多模态基准

该研究介绍了 MMT-Bench，这是一个综合性评估基准，旨在评估大规模视觉 - 语言模型（LVLM）在多种跨领域的多模态任务上的能力，并促进下一代通用多模态智能基础模型的发展。

Apr, 2024

CMMMU: 一个中国的大型多学科多模态理解基准

CMMMU 是一个新的中国大规模多学科多模态理解基准，旨在评估大型多模态模型在中国语境中对要求大学级学科知识和深思熟虑推理的任务上的表现，并推动下一代 LMMs 的发展。

Jan, 2024

CMMU：中文多模态多类型问题理解与推理基准

多模态大型语言模型在理解和推理能力方面取得了显著进展，但领域专有知识的掌握仍然是一个挑战。因此，作者提出了一个名为 CMMU 的新型基准，用于测试多模态和多类型问题的理解和推理，这个基准是专为中文而设计的。研究结果表明，CMMU 对近期的多模态大型语言模型构成了重要挑战。

Jan, 2024

LVLM-eHub：面向大型视觉语言模型的全面评估基准

本文介绍了一个 LVLM-eHub 综合评估平台，使用 6 种多模态能力定量评估 47 个标准文本相关视觉基准，并利用在线平台提供用户级评估。结果显示，采用多轮推理评估框架可以缓解对象幻觉问题，为开发有效的 LVLM 评估流水线提供了启示。

Jun, 2023

大型视觉语言模型的评估是否正确？

通过研究评估作品，我们找出了两个主要问题：1）对于很多样本来说，视觉内容是不必要的；答案可以直接从问题和选项中推断出来，或者来自于 LLM 中的世界知识。2）在 LLM 和 LVLM 训练中存在意外的数据泄漏。为了解决这些问题，我们提出了 MMStar，这是一个由人工精选的具有 6 个核心能力和 18 个详细方向的视觉不可或缺的多模态基准。我们在 MMStar 上评估了 16 个主要的 LVLM，以评估它们的多模态能力，并通过提出的指标在 7 个基准上调查了它们的数据泄漏和实际多模态增益。

Mar, 2024

M4U：评估大型多模态模型的多语言理解与推理能力

M4U 是一个用于评估多学科、多语种、多模态理解和推理能力的新型基准测试数据集，通过 extensive evaluations of 21 leading Large Multimodal Models (LMMs) and Large Language Models (LLMs)，发现 GPT-4o 等领先的模型在 M4U 上的平均准确率仅为 47.6%，而且这些模型在跨语言多模态问题上表现出显著的性能降低。

May, 2024

M3DBench：利用多模态 3D 提示指导大型模型

我们引入了一个名为 M3DBench 的全面的 3D 指令跟随数据集，支持多模式指令与文本、图像、3D 物体和其他视觉提示相互交错，统一了不同的 3D 任务，是一个大规模的 3D 指令跟随数据集，收集了超过 320,000 个指令响应对，并建立了一个评估大型模型在理解多模态 3D 提示方面性能的新基准。广泛的实验证明了我们数据集和基准模型的有效性，支持通用的 3D 中心任务，这将激发未来的研究。

Dec, 2023