CMMMU: 一个中国的大型多学科多模态理解基准
多模态大型语言模型在理解和推理能力方面取得了显著进展,但领域专有知识的掌握仍然是一个挑战。因此,作者提出了一个名为 CMMU 的新型基准,用于测试多模态和多类型问题的理解和推理,这个基准是专为中文而设计的。研究结果表明,CMMU 对近期的多模态大型语言模型构成了重要挑战。
Jan, 2024
我们介绍了 MMMU:一个新的基准,旨在评估多模态模型在需要大学级学科知识和深思熟虑的大规模跨学科任务上的表现。MMMU 包括来自大学考试、测验和教科书的 11500 个精心收集的多模态问题,涵盖六个核心学科:艺术与设计、商业、科学、健康与医药、人文社会科学和技术与工程学。这些问题涵盖 30 个学科和 183 个子领域,包括 30 种高度异质的图像类型,如图表、图示、地图、表格、乐谱和化学结构。与现有基准不同,MMMU 侧重于使用领域特定知识进行高级感知和推理,挑战模型执行类似于专家面临的任务。我们对 14 个开源 LMM 和专有的 GPT-4V (ision) 进行了评估,突显了 MMMU 所带来的巨大挑战。即使是先进的 GPT-4V 只能达到 56%的准确率,表明有很大的改进空间。我们相信 MMMU 将推动社区构建面向专家人工通用智能的下一代多模态基础模型。
Nov, 2023
本文介绍了一个涵盖自然科学、社会科学、工程学和人文学科等多个领域的全面中文基准 CMMLU,并通过评估 18 种面向性能的多语言和中文 LLMs,在不同的主题和设置下评估它们的性能,结果显示,大多数现有 LLM 在提供上下文示例和思维链提示时仍然难以达到 50% 的平均准确性,而随机基准线为 25%,这凸显出 LLMs 有显着的改进空间。
Jun, 2023
M4U 是一个用于评估多学科、多语种、多模态理解和推理能力的新型基准测试数据集,通过 extensive evaluations of 21 leading Large Multimodal Models (LMMs) and Large Language Models (LLMs),发现 GPT-4o 等领先的模型在 M4U 上的平均准确率仅为 47.6%,而且这些模型在跨语言多模态问题上表现出显著的性能降低。
May, 2024
提出了 GAOKAO-MM,这是一个基于中国高考的多模态基准,评估了 10 个大型视觉语言模型 (LVLMs),发现它们的准确率都低于 50%,排名前三的是 GPT-4-Vison(48.1%),Qwen-VL-Plus(41.2%)和 Gemini-Pro-Vision(35.1%)。多维分析结果表明 LVLMs 在人工通用智能 (AGI) 方面有适度的距离,并为多语言 LVLMs 的发展提供了启示。
Feb, 2024
我们发布了 TMMLU+,这是一个为传统中文大规模多任务语言理解数据集而设计的全面数据集。TMMLU + 是一个多项选择问答数据集,包括 66 个从初级到专业水平的学科。与其前身 TMMLU 相比,TMMLU + 的规模增加了六倍,学科分布更加平衡。我们在 TMMLU + 中包含了来自闭源模型和 24 个开源的中文大型语言模型的基准结果,这些模型的参数范围从 1.8B 到 72B 不等。我们的研究发现,传统中文模型仍然落后于其简体中文模型。此外,目前的大型语言模型在平均分上仍未超越人类表现。我们公开发布了我们的数据集和相应的基准源代码。
Mar, 2024
该研究针对传统汉语在现有基准测试中的低覆盖率,提出了适用于评估大型语言模型的 TMLU 综合评估工具,通过中学到专业水平的 37 个科目以及对每个科目进行链式思考式的少样本解释,基于 24 个优秀的语言模型的广泛实验证明汉语公开权重模型在复杂推理能力上表现较差,而适用于台湾国语的开放权重模型也相对于简体中文版本存在差距,研究发现存在提升潜力,强调了培养本土化台湾国语大型语言模型的目标,并公开了基准测试和评估脚本以促进未来研究。
Mar, 2024
通过构建专业水准的最大、最高质量的病理学基准测试 PathMMU,我们对大型多模态模型的发展和精确评估进行了研究,发现高级多模态模型在面临挑战性的 PathMMU 基准测试中表现不佳,而且即使进行优化,也无法达到病理学家的专业水准。
Jan, 2024
Multi 是一种多模态大型语言模型(MLLMs)的先进基准测试,提供了综合数据集,用于评估 MLLMs 在理解复杂图表、科学问题等方面的表现,并挑战包括公式推导、图像细节分析和跨模态推理在内的多样任务。评估结果表明,MLLMs 在 Multi 上取得了显著的进展,与其他 MLLMs 相比,GPT-4V 的准确率达到了 63.7%,Multi 不仅是一个强大的评估平台,也为专家级 AI 的发展铺平了道路。
Feb, 2024
我们提出了 KMMLU,这是一个新的韩语基准,包括来自 45 个学科的 35,030 个专家级多项选择题,涵盖人文学科到 STEM 学科。与之前从现有英语基准翻译而来的韩语基准不同,KMMLU 收集了来自原始韩语考试的问题,捕捉了韩语的语言和文化方面。我们测试了 26 个公开和专有 LLM 模型,发现有显著的改进空间。最好的公开模型在 KMMLU 上的准确率为 50.54%,远远低于人类平均表现 62.6%。该模型主要用于英文和中文训练,而不是韩语。对于韩语,当前的适用 LLMs,例如 Polyglot-Ko,表现得更差。令人惊讶的是,即使是最强大的专有 LLMs,例如 GPT-4 和 HyperCLOVA X,分别只能达到 59.95%和 53.40%。这表明需要进一步改进韩语 LLMs,而 KMMLU 提供了追踪这一进展的正确工具。我们在 Hugging Face Hub 上公开了我们的数据集,并将这个基准整合到 EleutherAI 的语言模型评估工具中。
Feb, 2024