MMLU-Pro: 一个更强大和具有挑战性的多任务语言理解基准测试

Jun, 2024

MMLU-Pro: 一个更强大和具有挑战性的多任务语言理解基准测试

MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark

Yubo Wang, Xueguang Ma, Ge Zhang, Yuansheng Ni, Abhranil Chandra...

TL;DR在大规模语言模型的时代，本论文引入了 MMLU-Pro，这是一个增强的数据集，旨在扩展主要以知识驱动的 MMLU 基准测试，并且在其中集成了更具挑战性且关注推理的问题，从 4 个选项扩展到 10 个选项，同时消除了 MMLU 中的琐碎和噪声问题。与 MMLU 相比，实验证明 MMLU-Pro 不仅提高了挑战性，导致准确率下降了 16％至 33％，而且对于不同提示的模型评分的敏感性也下降了。此外，我们发现在 MMLU-Pro 上，采用 Chain of Thought (CoT) 推理的模型比直接回答问题的模型表现更好，这与原始 MMLU 上的研究结果形成鲜明对比，表明 MMLU-Pro 包含更复杂的推理问题。我们的评估证实 MMLU-Pro 是一个更有区分性的基准测试，以更好地追踪领域的进展。

Abstract

In the age of large-scale language models, benchmarks like the Massive Multitask Language Understanding (MMLU) have been pivotal in pushing the boundaries of what AI can achieve in language comprehension and reasoning across diverse domains. However, as models continue to improve, thei

large-scale language models benchmark mmlu-pro reasoning-focused questions sensitivity to prompt variations

发现论文，激发创造

CMMLU: 用于测量中文海量多任务语言理解的工具

本文介绍了一个涵盖自然科学、社会科学、工程学和人文学科等多个领域的全面中文基准 CMMLU，并通过评估 18 种面向性能的多语言和中文 LLMs，在不同的主题和设置下评估它们的性能，结果显示，大多数现有 LLM 在提供上下文示例和思维链提示时仍然难以达到 50% 的平均准确性，而随机基准线为 25%，这凸显出 LLMs 有显着的改进空间。

Jun, 2023

论证还是简单的下一个令牌预测？用于对大型语言模型进行压力测试的基准

我们提出了 MMLU-SR，这是一个新颖的数据集，旨在通过在问题回答任务中使用修改后的术语挑战大型语言模型（LLMs）的性能来测量其真实的理解能力。尽管最近流行的 LLMs 在 MMLU 排行榜上获得了高分，但我们发现在这种替换后模型的性能大幅下降，暗示了其理解能力较差。这个新的基准提供了一个严格测试真实模型理解能力的基准，并向广大科学界提出了挑战。

Jun, 2024

阿拉伯语 MMLU: 评估阿拉伯语的大规模多任务语言理解

评估语言模型、阿拉伯语多任务语言理解基准、模型性能

Feb, 2024

多模态理解排行榜：文本与图像

Multi 是一种多模态大型语言模型（MLLMs）的先进基准测试，提供了综合数据集，用于评估 MLLMs 在理解复杂图表、科学问题等方面的表现，并挑战包括公式推导、图像细节分析和跨模态推理在内的多样任务。评估结果表明，MLLMs 在 Multi 上取得了显著的进展，与其他 MLLMs 相比，GPT-4V 的准确率达到了 63.7%，Multi 不仅是一个强大的评估平台，也为专家级 AI 的发展铺平了道路。

Feb, 2024

CMMU：中文多模态多类型问题理解与推理基准

多模态大型语言模型在理解和推理能力方面取得了显著进展，但领域专有知识的掌握仍然是一个挑战。因此，作者提出了一个名为 CMMU 的新型基准，用于测试多模态和多类型问题的理解和推理，这个基准是专为中文而设计的。研究结果表明，CMMU 对近期的多模态大型语言模型构成了重要挑战。

Jan, 2024

ArcMMLU：大型语言模型的图书馆与信息科学基准

该研究介绍了 ArcMMLU，这是一种专门为中文图书馆与信息科学领域定制的基准测试，它旨在衡量大型语言模型在档案学、数据科学、图书馆学和信息科学四个子领域内的知识和推理能力。通过对超过 6,000 个高质量问题的收集，ArcMMLU 构成了一个广泛的编译，能够反映 LIS 领域的多样性并为 LLM 评估提供可靠的基础。该研究发现，虽然大多数主流 LLM 在 ArcMMLU 上的平均准确率超过 50％，但仍然存在显著的性能差距，表明 LIS 领域的 LLM 功能仍有提升的空间。进一步分析探讨了少样本示例对模型性能的影响，并突出了模型在一些具有挑战性问题上的持续低效表现，为有针对性的改进提供了有价值的洞见。ArcMMLU 填补了中文 LIS 领域 LLM 评估中的一个重要空白，为未来定制该专门领域的 LLM 的发展铺平了道路。

Nov, 2023

我们结束了 MMLU 吗？

我们检测和分析了流行的大规模多任务语言理解（MMLU）基准测试中的错误，并发现大量的实际误差，使 LLM 的真实能力变得模糊。为了解决这个问题，我们引入了一个全面的框架来识别数据集错误，使用新的错误分类法创建了 MMLU-Redux，它是 30 个 MMLU 主题中，通过手动重新注释的 3,000 个子集问题。通过 MMLU-Redux，我们展示了与最初报告的模型性能指标存在显著差异。我们的研究结果强烈呼吁修订 MMLU 中存在错误的问题，以提高其作为基准测试的未来效用和可靠性。因此，我们开放了 MMLU-Redux 供进一步注释。

Jun, 2024

KMMLU：韩国语的大规模多任务语言理解测量

我们提出了 KMMLU，这是一个新的韩语基准，包括来自 45 个学科的 35,030 个专家级多项选择题，涵盖人文学科到 STEM 学科。与之前从现有英语基准翻译而来的韩语基准不同，KMMLU 收集了来自原始韩语考试的问题，捕捉了韩语的语言和文化方面。我们测试了 26 个公开和专有 LLM 模型，发现有显著的改进空间。最好的公开模型在 KMMLU 上的准确率为 50.54％，远远低于人类平均表现 62.6％。该模型主要用于英文和中文训练，而不是韩语。对于韩语，当前的适用 LLMs，例如 Polyglot-Ko，表现得更差。令人惊讶的是，即使是最强大的专有 LLMs，例如 GPT-4 和 HyperCLOVA X，分别只能达到 59.95％和 53.40％。这表明需要进一步改进韩语 LLMs，而 KMMLU 提供了追踪这一进展的正确工具。我们在 Hugging Face Hub 上公开了我们的数据集，并将这个基准整合到 EleutherAI 的语言模型评估工具中。

Feb, 2024

西班牙语和 LLM 基准：MMLU 是否被翻译迷失？

评估大型语言模型在其他语言中表现的质量，并修正翻译错误以及适应目标语言的测试项是改进非英语语言基准测试的关键。

May, 2024

MMEvalPro：多模态基准测试的可靠和高效评估

通过提出 MMEvalPro 基准测试，我们针对多模态模型在视觉问题中的性能进行了评估的可靠性进行了改进，其结果表明该基准测试更具挑战性且更可信，为进一步推动未来研究提供了重要潜力。

Jun, 2024