Nov, 2023

MMMU: 一个专家级通用人工智能的大规模多学科多模态理解与推理基准

TL;DR我们介绍了 MMMU:一个新的基准,旨在评估多模态模型在需要大学级学科知识和深思熟虑的大规模跨学科任务上的表现。MMMU 包括来自大学考试、测验和教科书的 11500 个精心收集的多模态问题,涵盖六个核心学科:艺术与设计、商业、科学、健康与医药、人文社会科学和技术与工程学。这些问题涵盖 30 个学科和 183 个子领域,包括 30 种高度异质的图像类型,如图表、图示、地图、表格、乐谱和化学结构。与现有基准不同,MMMU 侧重于使用领域特定知识进行高级感知和推理,挑战模型执行类似于专家面临的任务。我们对 14 个开源 LMM 和专有的 GPT-4V (ision) 进行了评估,突显了 MMMU 所带来的巨大挑战。即使是先进的 GPT-4V 只能达到 56%的准确率,表明有很大的改进空间。我们相信 MMMU 将推动社区构建面向专家人工通用智能的下一代多模态基础模型。