大规模语言模型在数学推理任务中的基准测试

Aug, 2024

大规模语言模型在数学推理任务中的基准测试

Benchmarking Large Language Models for Math Reasoning Tasks

Kathrin Seßler, Yao Rong, Emek Gözlüklü, Enkelejda Kasneci

TL;DR该研究解决了现有的大规模语言模型在数学推理任务中缺乏全面基准测试的问题。通过比较七种最先进的学习算法在五个广泛使用的数学数据集上的表现，研究揭示了大型基础模型在数学推理中的独立性能及其效率与效果之间的权衡。研究结果为教育等实际应用提供了重要的指导。

Abstract

The use of Large Language Models (LLMs) in Mathematical Reasoning has become a cornerstone of related research, demonstrating the intelligence of these models and enabling potential practical applications through

发现论文，激发创造

LLM们已经足够先进了吗？一个为大型语言模型提供挑战性问题解决基准的测试

本文介绍了一个新的基准数据集 JEEBench，用于评估 Large Language Models 的问题解决能力，其中包含了 450 个有挑战性的预工程数学、物理和化学问题。本文对 GPT 系列模型进行了评估，发现即使使用 Self-Consistency 和 Chain-of-Thought prompting 等技术，GPT4 的最佳表现仍不到 40％，错误的代数运算和缺乏相关领域知识是造成表现不佳的主要原因。作者希望这个基准数据集能够引导未来使用 Large Language Models 进行问题解决的研究。

May, 2023

大型语言模型在数学推理方面的进展与挑战

数学推理是评估人类智能基本认知能力的基石。该研究调查了大型语言模型在解决数学问题方面的真正进展、障碍、数学问题类型和相关数据集、解决数学问题的LLM技术范围、影响LLMs解决数学问题的因素和问题，并提供了这一快速发展领域中的现状、成就和未来挑战的整体观点。

Jan, 2024

FineMath：面向中文大语言模型的细粒度数学评估基准

为了全面评估大型语言模型（LLMs）的数学推理能力，我们需要精心策划评估数据集，涵盖不同难度级别的各种数学概念和问题。为此，我们在本文中提出了FineMath，一个用于评估中文LLMs的细粒度数学评估基准数据集。FineMath涵盖了小学数学教学的主要数学概念，并进一步划分为17类数学应用问题，从而能够深入分析LLMs的数学推理能力。所有17类数学应用问题都根据解决这些问题所需的推理步骤数量进行手动注释其难度级别。我们在广泛的LLMs上对FineMath进行了大量实验，并发现中文LLMs的数学推理能力仍有相当大的提升空间。我们还对先前被忽视的评估过程和方法进行了深入分析。这两个因素显着影响了模型结果和我们对其数学推理能力的理解。该数据集将很快公开发布。

Mar, 2024

关于小学算术的大型语言模型性能的仔细检查

大型语言模型在数学推理的许多基准测试上取得了令人瞩目的成功，但人们越来越担心其中的一部分性能实际上是由于数据集污染，而不是真正的推理能力。调查显示，许多模型可能已经部分记忆了基准测试的例子，导致在新的基准测试上准确度下降。

May, 2024

评估大型语言模型的数学推理能力：重点关注错误识别和纠正

我们通过定义四个评估任务，并设计多样的提示来全面评估十一种代表性的LLM模型，从考官的角度出发，为错误识别和修正提供了新的数据集和注释的错误类型和步骤。研究结果表明GPT-4在所有模型中表现最佳，而开源模型LLaMA-2-7B的能力与闭源模型GPT-3.5和Gemini Pro相当。尤其是计算错误被证明是最具挑战性的错误类型。此外，使用错误类型提示LLM可以将平均修正准确率提高47.9%。这些结果揭示了开发LLM的数学推理能力的潜在方向。

Jun, 2024

LLM 不是智能思考者：引入数学主题树基准评估来全面评估 LLMs

大语言模型在数学推理方面展示了令人印象深刻的能力，但目前的评估仅限于特定的数学主题，不清楚大语言模型是否真正参与了推理。为了填补这些研究空白，我们提出了数学主题树（MaTT）基准，这是一个具有挑战性和结构化的基准，提供了1,958个关于各种数学学科的问题，并配以详细的层级链。通过使用MaTT基准评估不同的大语言模型，我们发现最先进的模型GPT-4在多项选择场景下仅达到54％的准确度。有趣的是，即使在使用思维链提示的情况下，我们也几乎没有观察到明显的改进。此外，当问题在没有可选项的情况下提供时，大语言模型的准确度显著下降了24.2个百分点。对于一系列主题的大语言模型的详细性能分析表明，即使是在相同的数学领域中的紧密相关子主题之间，也存在显着差异。为了找出大语言模型性能背后的原因，当有可选项时，我们对GPT-4生成的解释的完整性和准确性进行了手动评估。令人惊讶的是，在模型提供正确答案的情况下，只有53.3％的解释被认为是完整和准确的，即模型进行了真正的推理。

Jun, 2024

导航迷宫：评估和提高LLMs处理搜索问题的能力

最近，大型语言模型在数学和推理基准测试中取得了令人瞩目的表现。但是，它们在对人类而言相对容易的逻辑问题和谜题上仍然经常遇到困难。为了进一步研究这个问题，我们引入了一个名为SearchBench的新基准测试，其中包含11种独特的搜索问题类型，每种问题类型都配备了自动化流程来生成任意数量的实例，并分析LLM生成解决方案的可行性、正确性和最优性。我们发现，即使是最先进的LLM也无法完全以文本方式解决这些问题，例如GPT4只解决了1.4%的问题。SearchBench的问题要求考虑到多个解决路径以及回溯，这对自回归模型构成了重大挑战。指导LLM生成解决问题的代码会有所帮助，但是仅有轻微的改进，例如GPT4的表现提升到了11.7%。在这项工作中，我们展示了利用A*算法实现的上下文学习如何提高性能。当将这种优化方法与我们提出的多阶段多尝试方法相结合时，它的潜力得到了充分展现，将GPT-4的表现提升到了57%以上。

Jun, 2024

Mathador-LM：大型语言模型上的数学推理动态评估

Mathador-LM是用于评估大型语言模型在数学推理上的新基准，结合了规则解释、规划和问题求解。该基准受Mathador游戏启发，其目标是使用给定的一组基本数字和简单的规则，通过基本算术运算达到目标数字。我们在领先的大型语言模型中展示了稳定的平均性能，并动态生成基准实例，以符合目标难度级别。因此，我们的基准缓解了测试集泄露到训练数据中的问题，这是经常破坏流行基准的一个问题。此外，我们对Mathador-LM中的开源和闭源最新大型语言模型进行了全面评估。我们的发现表明，现代模型在Mathador-LM上面临困难，得分显著低于平均5年级学生，这与它们在流行数学推理基准上的强大表现形成鲜明对比。

Jun, 2024

MathOdyssey: 使用Odyssey数学数据对大型语言模型中的数学问题解决技能进行基准测试

该研究探讨了大型语言模型（LLMs）在数学问题求解方面的能力，并使用新开发的“MathOdyssey”数据集进行测试。研究结果显示，尽管LLMs在常规和中等难度任务上表现良好，但在奥林匹克级难度和复杂的大学水平问题上仍面临重大挑战，因此需要进一步研究来提高LLMs的数学推理能力。

Jun, 2024

轻量级大型语言模型在数学文字问题中的逻辑对比推理

本研究旨在提升轻量级大型语言模型在数学推理任务中的表现，填补了系统化测量数学逻辑相似性的空白。通过引入一种新颖的自动筛选机制来构建参考问题集，该方法结合了语义和逻辑相似性，在SVAMP数据集上实现了15.8%的性能提升，并在GSM8K数据集上取得了21.5%的改进，为未来的推理研究提供了重要的见解。

Aug, 2024