解决X和更多：大型语言模型能否解决带有超过两个未知数的复杂数学问题？

Jul, 2024

解决X和更多：大型语言模型能否解决带有超过两个未知数的复杂数学问题？

Solving for X and Beyond: Can Large Language Models Solve Complex Math Problems with More-Than-Two Unknowns?

Kuei-Chun Kao, Ruochen Wang, Cho-Jui Hsieh

TL;DR大型语言模型（LLMs）在解决数学问题方面表现出了人类智能的显著优势，本研究提出了一个新颖的基准测试（BeyondX），旨在解决当前基准测试的局限性，并通过使用带有多个未知数的问题增加了复杂性，实证研究显示，即使是针对数学任务进行了专门微调的现有LLMs的性能在未知数增加时也会显著下降，观察到GPT-4的性能下降高达70％，为了解决这些挑战，我们提出了Formulate-and-Solve策略，这是一种广义提示方法，有效处理任意数量未知数的问题，研究结果不仅增强了LLMs在BeyondX基准测试上的性能，还提供了更深入的洞察LLMs在面对更复杂的数学挑战时的计算限制。

Abstract

Large Language Models (LLMs) have demonstrated remarkable performance in solving math problems, a hallmark of human intelligence. Despite high success rates on current benchmarks; however, these often feature simple problems with only one or two unknowns, which do not sufficiently chal

发现论文，激发创造

面向多步推理的小语言模型特化

揭示了将大规模语言模型进行特化，使其在特定任务上具有相对较强的表现的可能性，并使用多步数学推理作为测试，通过设计优化措施来提高其广义性能。

Jan, 2023

LLM们已经足够先进了吗？一个为大型语言模型提供挑战性问题解决基准的测试

本文介绍了一个新的基准数据集 JEEBench，用于评估 Large Language Models 的问题解决能力，其中包含了 450 个有挑战性的预工程数学、物理和化学问题。本文对 GPT 系列模型进行了评估，发现即使使用 Self-Consistency 和 Chain-of-Thought prompting 等技术，GPT4 的最佳表现仍不到 40％，错误的代数运算和缺乏相关领域知识是造成表现不佳的主要原因。作者希望这个基准数据集能够引导未来使用 Large Language Models 进行问题解决的研究。

May, 2023

大型语言模型在数学推理方面的进展与挑战

数学推理是评估人类智能基本认知能力的基石。该研究调查了大型语言模型在解决数学问题方面的真正进展、障碍、数学问题类型和相关数据集、解决数学问题的LLM技术范围、影响LLMs解决数学问题的因素和问题，并提供了这一快速发展领域中的现状、成就和未来挑战的整体观点。

Jan, 2024

ChatGLM-Math: 使用自我批评流程提高大型语言模型在数学问题求解中的能力

通过自我评审流程，大型语言模型（LLMs）能够在保持语言能力的同时提升数学问题解决能力，从而有效增强LLMs在实际应用中的性能。

Apr, 2024

Mathify: 在数学问题求解任务上评估大型语言模型

自然语言处理和大型语言模型在教育和指导方法领域取得了快速进展，特别在解决数学问题的应用方面，其中MAmmoTH-13B表现出了最高的能力水平，成为解决NCERT数学问题的可靠基准。

Apr, 2024

评估拉马大型语言模型的新兴符号推理能力

大型语言模型在各种任务中取得了令人印象深刻的表现，即使它们通常只是为了与用户流畅聊天而训练。本文系统地研究了流行的开源大型语言模型在不同符号推理任务上的能力和局限性。我们评估了Llama 2家族的三个模型在两个需要解决不同难度数学公式的数据集上。我们测试了一个通用的大型语言模型（Llama 2 Chat）以及两个专门设计用于解决数学问题的经过微调的Llama 2版本（MAmmoTH和MetaMath）。我们观察到，增加模型规模并在相关任务上进行微调可以显著提高性能。此外，通过使用细粒度的评估指标，我们发现这种性能提升主要出现在复杂度较低的数学公式上，尽管对于最大的经过微调的模型来说，这些公式通常仍然具有一定挑战性。

Jun, 2024

Mathador-LM：大型语言模型上的数学推理动态评估

Mathador-LM是用于评估大型语言模型在数学推理上的新基准，结合了规则解释、规划和问题求解。该基准受Mathador游戏启发，其目标是使用给定的一组基本数字和简单的规则，通过基本算术运算达到目标数字。我们在领先的大型语言模型中展示了稳定的平均性能，并动态生成基准实例，以符合目标难度级别。因此，我们的基准缓解了测试集泄露到训练数据中的问题，这是经常破坏流行基准的一个问题。此外，我们对Mathador-LM中的开源和闭源最新大型语言模型进行了全面评估。我们的发现表明，现代模型在Mathador-LM上面临困难，得分显著低于平均5年级学生，这与它们在流行数学推理基准上的强大表现形成鲜明对比。

Jun, 2024

MathOdyssey: 使用Odyssey数学数据对大型语言模型中的数学问题解决技能进行基准测试

该研究探讨了大型语言模型（LLMs）在数学问题求解方面的能力，并使用新开发的“MathOdyssey”数据集进行测试。研究结果显示，尽管LLMs在常规和中等难度任务上表现良好，但在奥林匹克级难度和复杂的大学水平问题上仍面临重大挑战，因此需要进一步研究来提高LLMs的数学推理能力。

Jun, 2024

Skywork-Math: 大型语言模型中的数学推理数据缩放定律--故事将继续

研究了增强大型语言模型的数学推理能力的潜在因素，并提出了一种数据缩放定律。通过引入基于Skywork-MathQA数据集的Skywork-Math模型系列，指出增加数据量可以提高模型质量。通过两阶段数据综合和模型SFT流程，包括三种不同的增强方法和不同难度水平的种子问题集，提供了Skywork-MathQA数据集的数量和质量，从而实现了更高的性能。同时，为了研究和工业应用，提供了若干实践经验来提高大型语言模型的数学推理能力。

Jul, 2024

大规模语言模型在数学推理任务中的基准测试

该研究解决了现有的大规模语言模型在数学推理任务中缺乏全面基准测试的问题。通过比较七种最先进的学习算法在五个广泛使用的数学数据集上的表现，研究揭示了大型基础模型在数学推理中的独立性能及其效率与效果之间的权衡。研究结果为教育等实际应用提供了重要的指导。

Aug, 2024