MathOdyssey: 使用 Odyssey 数学数据对大型语言模型中的数学问题解决技能进行基准测试

Jun, 2024

MathOdyssey: 使用 Odyssey 数学数据对大型语言模型中的数学问题解决技能进行基准测试

MathOdyssey: Benchmarking Mathematical Problem-Solving Skills in Large Language Models Using Odyssey Math Data

Meng Fang, Xiangpeng Wan, Fei Lu, Fei Xing, Kai Zou

TL;DR该研究探讨了大型语言模型（LLMs）在数学问题求解方面的能力，并使用新开发的 “MathOdyssey” 数据集进行测试。研究结果显示，尽管 LLMs 在常规和中等难度任务上表现良好，但在奥林匹克级难度和复杂的大学水平问题上仍面临重大挑战，因此需要进一步研究来提高 LLMs 的数学推理能力。

Abstract

large language models (LLMs) have significantly advanced natural language understanding and demonstrated strong problem-solving abilities. Despite these successes, most LLMs still struggle with solving mathematical problems due to the intricate reasoning required. This paper investigat

large language models mathematical problem-solving mathodyssey dataset ai capabilities mathematical reasoning

发现论文，激发创造

Mathify: 在数学问题求解任务上评估大型语言模型

自然语言处理和大型语言模型在教育和指导方法领域取得了快速进展，特别在解决数学问题的应用方面，其中 MAmmoTH-13B 表现出了最高的能力水平，成为解决 NCERT 数学问题的可靠基准。

Apr, 2024

使用合成数据探索大型语言模型的数学外推

通过对高质量合成数据的微调，本文通过提出的算术难题问题展示出大型语言模型在多步推理任务上的出色表现，并通过开源的 3B 模型在三个不同的测试数据集上实验结果表明，这种模型不仅在域内数据集上能够达到 0.44 的零样本一次通过率 @1，而且还在域外数据集上展现出一定的泛化能力，对于扩展数字范围和算术难题问题的组合组件分别设计了两个域外数据集，在这两个更难的任务上，经过微调的模型展示出令人鼓舞的表现，零样本一次通过率 @1 分别为 0.33 和 0.35。

Jun, 2024

OlympiadBench：一个挑战性的基准测试，旨在推动具备奥林匹克级双语多模式科学问题的通用人工智能

我们提出了 OlympiadBench，这是一个奥林匹克级双语多模态科学基准，包含来自奥林匹克级数学和物理竞赛以及中国大学入学考试的 8,952 个问题，每个问题都有专家级的逐步推理注释。我们在 OlympiadBench 上评估了一流的模型，并实施了全面的评估方法，从而准确评估模型的响应能力。最佳模型 GPT-4V 在 OlympiadBench 上的平均得分为 17.23％，物理得分仅为 11.28％，突出了基准的严谨性和物理推理的复杂性。我们的分析指出了 GPT-4V 存在的幻觉、知识遗漏和逻辑谬误等普遍问题。希望我们挑战性的基准可以成为未来 AGI 研究努力的宝贵资源。

Feb, 2024

大型语言模型在数学推理方面的进展与挑战

数学推理是评估人类智能基本认知能力的基石。该研究调查了大型语言模型在解决数学问题方面的真正进展、障碍、数学问题类型和相关数据集、解决数学问题的 LLM 技术范围、影响 LLMs 解决数学问题的因素和问题，并提供了这一快速发展领域中的现状、成就和未来挑战的整体观点。

Jan, 2024

评估大型视觉语言模型在儿童数学奥林匹克竞赛上的表现

通过评估最先进的大型视觉和语言模型在儿童奥林匹克数学竞赛中的数学推理能力，我们填补了当前科学文献中缺少的有关联合视觉和文本推理的系统分析，结果显示现代大型视觉和语言模型在高年级的问题解决能力越来越强，但缺乏解答针对年幼儿童设计的问题的基础知识，而且它们的能力似乎基于与儿童的数学和逻辑技能不同的推理类型。

Jun, 2024

陷入数理泥潭，远离 AGI 峰会：通过本体引导的扰动评估 LLM 的数学能力

该研究通过扰动问题和生成数据集，评估大型语言模型在数学推理任务中的能力，结果表明现有模型在扰动问题上性能显著下降，缺乏深度推理能力。

Jan, 2024

LLM 们已经足够先进了吗？一个为大型语言模型提供挑战性问题解决基准的测试

本文介绍了一个新的基准数据集 JEEBench，用于评估 Large Language Models 的问题解决能力，其中包含了 450 个有挑战性的预工程数学、物理和化学问题。本文对 GPT 系列模型进行了评估，发现即使使用 Self-Consistency 和 Chain-of-Thought prompting 等技术，GPT4 的最佳表现仍不到 40％，错误的代数运算和缺乏相关领域知识是造成表现不佳的主要原因。作者希望这个基准数据集能够引导未来使用 Large Language Models 进行问题解决的研究。

May, 2023

MARIO：用代码解释器输出进行数学推理的再现性管道

大型语言模型在自然语言理解任务中取得了显著的进展，但要实现真正的人工智能通用智能还存在差距，特别是在数学推理能力方面存在不足。本文通过丰富数据环境和引入一种新的数学数据集，该数据集具有使用 Python 代码解释器的能力，解决了这一挑战。此外，我们提出了一种旨在精调数学专用语言模型的可行、易复制的协议，在 GSM8K 和 MATH 数据集上显著提升了 7B 参数 LLM 性能。我们致力于推进 LLMs 中的数学推理领域，并且我们已经公开了模型检查点并将数据集公开可用，希望这将促进社区内的进一步研究和发展。

Jan, 2024

SciBench：评估大规模语言模型的大学科学问题解决能力

最近大型语言模型 (LLM) 在许多数学基准上取得显著进展，但大多数基准只涉及初高中科目的问题和多项选择题，且仅限于有限范围的基本算术操作。为解决这些问题，本文引入了一个广泛的基准套件 SciBench，旨在系统地检验复杂科学问题解决所需的推理能力。SciBench 包含两个精心策划的数据集：一个开放集，包含从数学、化学和物理教科书中提取的多领域的大学级科学问题；一个封闭集，包含了计算机科学和数学本科考试中的问题。基于这两个数据集，我们对两个代表性 LLM 进行了深入的基准研究，采用多种提示策略。结果表明，当前 LLM 的表现不尽如人意，综合得分仅为 35.80%。此外，通过详细的用户研究，我们将 LLM 的错误归类为十种问题解决能力。我们的分析表明，没有一种单一的提示策略明显优于其他策略，而且一些策略在某些问题解决技能上的提高会导致其他技能下降。我们预计 SciBench 将催生 LLM 的推理能力进一步发展，从而最终促进科学研究和发现。

Jul, 2023

LLM 能掌握数学吗？研究大型语言模型在数学 Stack Exchange 上

本研究通过分析 GPT-4 在回答数学问题中的表现，探讨了大型语言模型在复杂的数学问题解决中的局限性和不足，为未来人工智能驱动的数学推理的研究和进展奠定了基础。

Mar, 2024