舍赫拉莎德：利用问题链评估大型语言模型的链式思维数学推理

Sep, 2024

舍赫拉莎德：利用问题链评估大型语言模型的链式思维数学推理

Scheherazade: Evaluating Chain-of-Thought Math Reasoning in LLMs with Chain-of-Problems

Stephen Miner, Yoshiki Takashima, Simeng Han, Ferhat Erata, Timos Antonopoulos...

TL;DR本研究针对大型语言模型（LLMs）在数学推理能力评估中存在基准测试过于简单的缺陷，提出了自动化生成更具挑战性的数学推理基准的方案——Scheherazade。通过前向和后向链法，我们发现虽然前沿模型在问题链数目增加时表现显著下降，但OpenAI的o1-preview在后向链基准测试中表现反而更佳，显示出新方法的潜在影响力。

Abstract

Benchmarks are critical for measuring progress of math reasoning abilities of Large Language Models (LLMs). However, existing widely-used benchmarks such as GSM8K have been rendered less useful as multiple cutting-edge LLMs achieve over 94% accuracy. While harder benchmarks have been p

发现论文，激发创造

从算术任务中学习多步推理

本研究探究如何将较小的语言模型与多步推理能力相结合，通过在合成数据集MsAT上进行持续的预训练，我们的实验证明了该方法对增强语言模型的数学推理能力的有效性。

Jun, 2023

填空题：探索和增强LLM在数学应用问题中倒向推理的能力

本文研究倒向推理任务在数学问题中的应用，并提出了三种新技术以及一种基于贝叶斯公式的集成方法，这些方法显著提高了语言模型在倒向推理任务上的性能。

Oct, 2023

GSM-Plus: 评估LLMs作为数学问题求解器鲁棒性的综合基准

通过对大型语言模型进行广泛的问题变体测试，我们评估了它们的数学推理能力的鲁棒性。结果表明，虽然这些模型在数学推理能力上表现出不同水平，但它们的性能远非稳健。

Feb, 2024

关于小学算术的大型语言模型性能的仔细检查

大型语言模型在数学推理的许多基准测试上取得了令人瞩目的成功，但人们越来越担心其中的一部分性能实际上是由于数据集污染，而不是真正的推理能力。调查显示，许多模型可能已经部分记忆了基准测试的例子，导致在新的基准测试上准确度下降。

May, 2024

LLM 不是智能思考者：引入数学主题树基准评估来全面评估 LLMs

大语言模型在数学推理方面展示了令人印象深刻的能力，但目前的评估仅限于特定的数学主题，不清楚大语言模型是否真正参与了推理。为了填补这些研究空白，我们提出了数学主题树（MaTT）基准，这是一个具有挑战性和结构化的基准，提供了1,958个关于各种数学学科的问题，并配以详细的层级链。通过使用MaTT基准评估不同的大语言模型，我们发现最先进的模型GPT-4在多项选择场景下仅达到54％的准确度。有趣的是，即使在使用思维链提示的情况下，我们也几乎没有观察到明显的改进。此外，当问题在没有可选项的情况下提供时，大语言模型的准确度显著下降了24.2个百分点。对于一系列主题的大语言模型的详细性能分析表明，即使是在相同的数学领域中的紧密相关子主题之间，也存在显着差异。为了找出大语言模型性能背后的原因，当有可选项时，我们对GPT-4生成的解释的完整性和准确性进行了手动评估。令人惊讶的是，在模型提供正确答案的情况下，只有53.3％的解释被认为是完整和准确的，即模型进行了真正的推理。

Jun, 2024

Mathador-LM：大型语言模型上的数学推理动态评估

Mathador-LM是用于评估大型语言模型在数学推理上的新基准，结合了规则解释、规划和问题求解。该基准受Mathador游戏启发，其目标是使用给定的一组基本数字和简单的规则，通过基本算术运算达到目标数字。我们在领先的大型语言模型中展示了稳定的平均性能，并动态生成基准实例，以符合目标难度级别。因此，我们的基准缓解了测试集泄露到训练数据中的问题，这是经常破坏流行基准的一个问题。此外，我们对Mathador-LM中的开源和闭源最新大型语言模型进行了全面评估。我们的发现表明，现代模型在Mathador-LM上面临困难，得分显著低于平均5年级学生，这与它们在流行数学推理基准上的强大表现形成鲜明对比。

Jun, 2024

MathOdyssey: 使用Odyssey数学数据对大型语言模型中的数学问题解决技能进行基准测试

该研究探讨了大型语言模型（LLMs）在数学问题求解方面的能力，并使用新开发的“MathOdyssey”数据集进行测试。研究结果显示，尽管LLMs在常规和中等难度任务上表现良好，但在奥林匹克级难度和复杂的大学水平问题上仍面临重大挑战，因此需要进一步研究来提高LLMs的数学推理能力。

Jun, 2024

增强大型语言模型的数学推理能力的令牌监督价值模型

使用令牌级别监督和期望的累积奖励，我们设计了一种训练方案，以修正确定令牌级别推理路径的不足，并提出了基于减少未来正确性概率的累积奖励的实际制定方式，从而使令牌级别价值模型（TVM）在数学推理基准测试中胜过逐步验证器。

Jul, 2024

大规模语言模型在数学推理任务中的基准测试

该研究解决了现有的大规模语言模型在数学推理任务中缺乏全面基准测试的问题。通过比较七种最先进的学习算法在五个广泛使用的数学数据集上的表现，研究揭示了大型基础模型在数学推理中的独立性能及其效率与效果之间的权衡。研究结果为教育等实际应用提供了重要的指导。

Aug, 2024

轻量级大型语言模型在数学文字问题中的逻辑对比推理

本研究旨在提升轻量级大型语言模型在数学推理任务中的表现，填补了系统化测量数学逻辑相似性的空白。通过引入一种新颖的自动筛选机制来构建参考问题集，该方法结合了语义和逻辑相似性，在SVAMP数据集上实现了15.8%的性能提升，并在GSM8K数据集上取得了21.5%的改进，为未来的推理研究提供了重要的见解。

Aug, 2024