Jun, 2024

MMLU-Pro: 一个更强大和具有挑战性的多任务语言理解基准测试

TL;DR在大规模语言模型的时代,本论文引入了 MMLU-Pro,这是一个增强的数据集,旨在扩展主要以知识驱动的 MMLU 基准测试,并且在其中集成了更具挑战性且关注推理的问题,从 4 个选项扩展到 10 个选项,同时消除了 MMLU 中的琐碎和噪声问题。与 MMLU 相比,实验证明 MMLU-Pro 不仅提高了挑战性,导致准确率下降了 16%至 33%,而且对于不同提示的模型评分的敏感性也下降了。此外,我们发现在 MMLU-Pro 上,采用 Chain of Thought (CoT) 推理的模型比直接回答问题的模型表现更好,这与原始 MMLU 上的研究结果形成鲜明对比,表明 MMLU-Pro 包含更复杂的推理问题。我们的评估证实 MMLU-Pro 是一个更有区分性的基准测试,以更好地追踪领域的进展。