CMMMU: 一个中国的大型多学科多模态理解基准
本文介绍了一个涵盖自然科学、社会科学、工程学和人文学科等多个领域的全面中文基准 CMMLU,并通过评估 18 种面向性能的多语言和中文 LLMs,在不同的主题和设置下评估它们的性能,结果显示,大多数现有LLM在提供上下文示例和思维链提示时仍然难以达到50%的平均准确性,而随机基准线为25%,这凸显出LLMs有显着的改进空间。
Jun, 2023
我们介绍了MMMU:一个新的基准,旨在评估多模态模型在需要大学级学科知识和深思熟虑的大规模跨学科任务上的表现。MMMU包括来自大学考试、测验和教科书的11500个精心收集的多模态问题,涵盖六个核心学科:艺术与设计、商业、科学、健康与医药、人文社会科学和技术与工程学。这些问题涵盖30个学科和183个子领域,包括30种高度异质的图像类型,如图表、图示、地图、表格、乐谱和化学结构。与现有基准不同,MMMU侧重于使用领域特定知识进行高级感知和推理,挑战模型执行类似于专家面临的任务。我们对14个开源LMM和专有的GPT-4V(ision)进行了评估,突显了MMMU所带来的巨大挑战。即使是先进的GPT-4V只能达到56%的准确率,表明有很大的改进空间。我们相信MMMU将推动社区构建面向专家人工通用智能的下一代多模态基础模型。
Nov, 2023
多模态大型语言模型在理解和推理能力方面取得了显著进展,但领域专有知识的掌握仍然是一个挑战。因此,作者提出了一个名为CMMU的新型基准,用于测试多模态和多类型问题的理解和推理,这个基准是专为中文而设计的。研究结果表明,CMMU对近期的多模态大型语言模型构成了重要挑战。
Jan, 2024
提出了GAOKAO-MM,这是一个基于中国高考的多模态基准,评估了10个大型视觉语言模型(LVLMs),发现它们的准确率都低于50%,排名前三的是GPT-4-Vison(48.1%),Qwen-VL-Plus(41.2%)和Gemini-Pro-Vision(35.1%)。多维分析结果表明LVLMs在人工通用智能(AGI)方面有适度的距离,并为多语言LVLMs的发展提供了启示。
Feb, 2024
M4U是一个用于评估多学科、多语种、多模态理解和推理能力的新型基准测试数据集,通过 extensive evaluations of 21 leading Large Multimodal Models (LMMs) and Large Language Models (LLMs),发现GPT-4o等领先的模型在M4U上的平均准确率仅为47.6%,而且这些模型在跨语言多模态问题上表现出显著的性能降低。
May, 2024
本研究针对当前大型语言模型在数学推理方面的不足,提出了一个新的中文多模态数学数据集CMM-Math,以评估和提升大型多模态模型的数学推理能力。研究表明,尽管现有的最先进模型在CMM-Math数据集上表现尚可,但仍面临一些挑战,推动开发更强大的多模态数学模型的必要性。我们的Multimodal Mathematical LMM显示出显著提高数学推理能力的潜力。
Sep, 2024
本研究针对现有多模态模型评估方法存在的不足,提出了MMMU-Pro基准,通过三步流程严格考察模型的理解和推理能力。研究发现,MMMU-Pro的难度显著高于原有基准,模型在该基准上的表现降低,从而为多模态AI未来研究提供了更真实的评估工具和方向。
Sep, 2024
本研究针对当前中文多模态数学数据集的缺乏问题,提出了一种新的CMM-Math数据集,包含超过28,000个高质量样本,旨在评估和提升大型多模态模型的数学推理能力。通过分析,发现现有的先进模型在该数据集上的表现仍存在挑战,强调了在模型发展的进一步改进需求。
Sep, 2024
本文提出了MMMU-Pro,一种强大的多学科多模态理解和推理基准,旨在解决现有基准无法有效评估多模态模型真实理解与推理能力的问题。该研究通过三步流程改进评估标准,发现模型在MMMU-Pro上的表现明显低于MMMU,强调了新基准在现实场景中的应用及其对多模态人工智能未来研究的重要影响。
Sep, 2024
本研究解决了现有大型多模态模型在非英语语言环境中的评估不足问题,提出了JMMMU基准,以日本文化为基础评估LMM的专家级任务。通过文化无关和文化特定两个子集的设计,研究表明许多LMM在日语评估中的表现明显下滑,揭示了它们对日本文化理解的不足,从而为未来的多语言LMM开发提供了高标准、文化多样性的基准指导。
Oct, 2024