MARIO Eval: 用数学评估你的数学 LLM 工具包

Apr, 2024

MARIO Eval: 用数学评估你的数学 LLM 工具包

MARIO Eval: Evaluate Your Math LLM with your Math LLM--A mathematical dataset evaluation toolkit

Boning Zhang, Chengxi Li, Kai Fan

TL;DR大语言模型（LLMs）在解决数学问题等各种推理任务中得到了探索。我们引入了一个全面的数学评估工具包，不仅利用 python 计算代数系统（CAS）进行数值精度评估，还集成了一个可选的大语言模型（LLM），以验证工具包的有效性。

Abstract

large language models (LLMs) have been explored in a variety of reasoning tasks including solving of mathematical problems. Each math dataset typically includes its own specially designed evaluation script, which, while suitable for its intended use, lacks generalizability across diffe

large language models mathematical evaluation toolkit computer algebra system python mathematical reasoning

发现论文，激发创造

Mathify: 在数学问题求解任务上评估大型语言模型

自然语言处理和大型语言模型在教育和指导方法领域取得了快速进展，特别在解决数学问题的应用方面，其中 MAmmoTH-13B 表现出了最高的能力水平，成为解决 NCERT 数学问题的可靠基准。

Apr, 2024

MARIO：用代码解释器输出进行数学推理的再现性管道

大型语言模型在自然语言理解任务中取得了显著的进展，但要实现真正的人工智能通用智能还存在差距，特别是在数学推理能力方面存在不足。本文通过丰富数据环境和引入一种新的数学数据集，该数据集具有使用 Python 代码解释器的能力，解决了这一挑战。此外，我们提出了一种旨在精调数学专用语言模型的可行、易复制的协议，在 GSM8K 和 MATH 数据集上显著提升了 7B 参数 LLM 性能。我们致力于推进 LLMs 中的数学推理领域，并且我们已经公开了模型检查点并将数据集公开可用，希望这将促进社区内的进一步研究和发展。

Jan, 2024

通过交互评估数学语言模型

使用交互式评估方法评估大型语言模型在大学级数学推理方面的能力，为人工智能从业者和数学教授提供可行的建议，重点在于模型应该如何处理不确定性和人类纠错。

Jun, 2023

LLM 能掌握数学吗？研究大型语言模型在数学 Stack Exchange 上

本研究通过分析 GPT-4 在回答数学问题中的表现，探讨了大型语言模型在复杂的数学问题解决中的局限性和不足，为未来人工智能驱动的数学推理的研究和进展奠定了基础。

Mar, 2024

GeoEval：几何问题解决中评估 LLM 和多模型的基准

最近的大型语言模型（LLMs）和多模态模型（MMs）在问题解决方面展示了卓越的能力，但它们在解决需要对文本和图像信息进行综合理解的几何数学问题方面的熟练程度尚未得到深入评估。为了填补这一空白，我们引入了 GeoEval 基准测试，它包括一个主子集、一个重点关注逆向推理的 750 个问题子集、一个增强的 2000 个问题子集和一个困难的 300 个问题子集。这个基准测试有助于更深入地研究 LLMs 和 MMs 在解决几何数学问题方面的性能。我们对这些不同子集中的十个 LLMs 和 MMs 进行评估，发现 WizardMath 模型表现出色，在主子集上的准确率达到 55.67％，但在困难子集上只有 6.00％的准确率。这突显了对模型进行在未经预训练的数据集上测试的重要性。此外，我们的研究结果表明，GPT 系列模型在它们重新表述的问题上表现更有效，这为增强模型能力提供了有希望的方法。

Feb, 2024

大型语言模型在数学推理方面的进展与挑战

数学推理是评估人类智能基本认知能力的基石。该研究调查了大型语言模型在解决数学问题方面的真正进展、障碍、数学问题类型和相关数据集、解决数学问题的 LLM 技术范围、影响 LLMs 解决数学问题的因素和问题，并提供了这一快速发展领域中的现状、成就和未来挑战的整体观点。

Jan, 2024

超越模式匹配学习？对 LLM 中的数学理解进行评估

通过评估预训练语言模型对解决问题所需的不同数学技能的领域知识，本文提出了 NTKEval 方法来评估 LLM 概率分布变化的培训，发现当场景中学到的培训以及利用数学知识结构时存在领域理解。相比之下，某些指令调整导致类似的性能变化，无论培训数据不同，暗示了跨不同技能的领域理解缺乏。

May, 2024

ChatGLM-Math: 使用自我批评流程提高大型语言模型在数学问题求解中的能力

通过自我评审流程，大型语言模型（LLMs）能够在保持语言能力的同时提升数学问题解决能力，从而有效增强 LLMs 在实际应用中的性能。

Apr, 2024

MedCalc-Bench: 评估医学计算中的大型语言模型

评估医学中的大型语言模型 (LLMs) 时，与计算和基于逻辑的推理相反，当前的基准测试主要集中在涉及领域知识和描述性推理的问答上。然而，在现实世界的情况下，医生经常使用遵循定量方程和基于规则推理范例的临床计算器作为基于证据的决策支持。为此，我们提出了 MedCalc-Bench，这是一个首个针对评估 LLMs 在医学计算能力方面的数据集。MedCalc-Bench 包含了来自 55 个不同医学计算任务的 1000 多个手动审核实例的评估集。每个 MedCalc-Bench 实例包括患者记录、请求计算特定医学数值的问题、基本真相答案和逐步说明显示如何获取答案。尽管我们的评估结果显示 LLMs 在这个领域具有潜力，但它们还没有在临床环境中足够有效。常见问题包括提取错误的实体、不使用正确的方程式或规则进行计算任务，或错误地执行计算的算术操作。我们希望我们的研究能够突出 LLMs 在医学环境中的定量知识和推理差距，促进未来改进 LLMs 以用于各种临床计算任务。

Jun, 2024

DocMath-Eval：评估 LLMs 在理解带表格数据的长文档中的数值推理能力

该论文介绍了 DocMath-Eval，这是一个特意设计用于评估具有理解和分析既包含文本又包含表格的金融文件的 LLMs 的数值推理和问题解决能力的综合基准测试。我们评估了 19 个 LLMs 的广泛领域的表现，并采用不同的提示策略来全面评估现有 LLMs 在 DocMath-Eval 中的能力和局限性。我们发现，尽管目前表现最好的系统（即 GPT-4）在短文本环境下可以很好地处理简单问题，如计算金融指标的增长率，但在较长上下文中的更复杂问题上明显落后于人类专家。我们相信 DocMath-Eval 可以作为一个有价值的基准测试，用于评估 LLMs 在专家领域中解决具有挑战性的数值推理问题的能力。我们将在此 https URL 上发布该基准测试和代码。

Nov, 2023