揭示致命缺陷：评估 LLM 在数学推理中处理错误的能力

Jun, 2024

揭示致命缺陷：评估 LLM 在数学推理中处理错误的能力

Exposing the Achilles' Heel: Evaluating LLMs Ability to Handle Mistakes in Mathematical Reasoning

Joykirat Singh, Akshay Nambi, Vibhav Vineet

TL;DR通过引入一个包含正确和错误推理步骤的新数据集 MWP-MISTAKE，本研究重点探讨了大型语言模型在检测和纠正推理错误方面的能力，并通过全面的基准测试揭示了目前最先进模型（如 GPT-4o，GPT-4，GPT-3.5Turbo 等）的优点和缺点。此外，我们还发现涉及数据污染和记忆的问题，影响了大型语言模型在实际应用中的可靠性，因此强调了对推理过程进行严格评估的重要性，并提出了提高大型语言模型在数学问题解决中泛化性和鲁棒性的未来方向。

Abstract

large language models (LLMs) have been applied to math word problems (MWPs) with transformative impacts, revolutionizing how these complex problems are approached and solved in various domains including education

large language models math word problems reasoning capabilities mwp-mistake dataset mistake detection and rectification

发现论文，激发创造

评估大型语言模型的数学推理能力：重点关注错误识别和纠正

我们通过定义四个评估任务，并设计多样的提示来全面评估十一种代表性的 LLM 模型，从考官的角度出发，为错误识别和修正提供了新的数据集和注释的错误类型和步骤。研究结果表明 GPT-4 在所有模型中表现最佳，而开源模型 LLaMA-2-7B 的能力与闭源模型 GPT-3.5 和 Gemini Pro 相当。尤其是计算错误被证明是最具挑战性的错误类型。此外，使用错误类型提示 LLM 可以将平均修正准确率提高 47.9%。这些结果揭示了开发 LLM 的数学推理能力的潜在方向。

Jun, 2024

从错误中学习使 LLM 成为更好的推理者

利用 Learning from Mistakes（LeMa）方法，本研究利用大型语言模型（LLMs）对数学问题的解决能力进行改进，仿照人类学习过程中的错误驱动学习机制，通过与 GPT-4 生成的错误更正数据对进行微调，实验证明 LeMa 提升了性能，在 5 个 LLMs 和 2 个数学推理任务中持续改善性能，并在特定 LLMs（如 WizardMath 和 MetaMath）上表现出色，在具有挑战性的任务上超越了开源模型的性能。

Oct, 2023

初学者学习者与专家导师：评估具有误解的大型语言模型的数学推理能力

我们提出了一种基于数学误解的大型语言模型（LLM）数学推理能力的新评估方法。我们通过模拟 LLMs 作为初学者和专家导师，旨在识别由于特定误解导致的错误答案，并识别一个错误答案背后的误解。与传统基于 LLMs 的数学评估侧重于正确回答数学问题不同，我们的方法受到教育学习科学原则的启发。我们要求 LLMs 明确地模仿初学者通过基于不完整知识的特定错误方式回答问题，并模仿专家导师识别与问题的错误答案相对应的误解。通过简单的小学数学问题实验，我们发现，尽管 LLMs 可以轻松正确回答这些问题，但它们难以识别：1）与特定不完整知识（误解）相对应的错误答案；2）解释特定错误答案的误解。我们的研究指出了增强 LLMs 数学推理能力的新机会，尤其是在教育应用中开发健壮的学生模拟和专家辅导模型方面。

Oct, 2023

LLM 不是智能思考者：引入数学主题树基准评估来全面评估 LLMs

大语言模型在数学推理方面展示了令人印象深刻的能力，但目前的评估仅限于特定的数学主题，不清楚大语言模型是否真正参与了推理。为了填补这些研究空白，我们提出了数学主题树（MaTT）基准，这是一个具有挑战性和结构化的基准，提供了 1,958 个关于各种数学学科的问题，并配以详细的层级链。通过使用 MaTT 基准评估不同的大语言模型，我们发现最先进的模型 GPT-4 在多项选择场景下仅达到 54％的准确度。有趣的是，即使在使用思维链提示的情况下，我们也几乎没有观察到明显的改进。此外，当问题在没有可选项的情况下提供时，大语言模型的准确度显著下降了 24.2 个百分点。对于一系列主题的大语言模型的详细性能分析表明，即使是在相同的数学领域中的紧密相关子主题之间，也存在显着差异。为了找出大语言模型性能背后的原因，当有可选项时，我们对 GPT-4 生成的解释的完整性和准确性进行了手动评估。令人惊讶的是，在模型提供正确答案的情况下，只有 53.3％的解释被认为是完整和准确的，即模型进行了真正的推理。

Jun, 2024

LLMs 错误的简单问题

我们引入了一个综合的语言基准测试来评估大型语言模型在逻辑推理、空间智能和语言理解等领域的局限性。通过一系列简单的问题，它揭示了知名模型在执行人类轻松处理的任务时存在的显著限制。它还强调了提示工程的潜力以缓解一些错误，并强调了更好的训练方法的必要性。我们的研究结果强调了将大型语言模型与人类推理和常识连接起来的重要性，并强调了人在企业应用中的必要性。我们希望这项工作为未来的研究提供了增强新模型的实用性和可靠性的途径。

May, 2024

LLMs 是否能够推理计算？

利用分布式网络的 “归纳学习” 方法可以提高小型语言模型的推理能力，从而弥补其依赖统计模式容易产生错误答案的局限性，并可能使其逼近高参数模型在逻辑应用上所取得的水平，从而弥合人类和大型语言模型在各个领域之间的逻辑差距。

Feb, 2024

竞赛级问题对 LLMs 的有效性评估

评估大语言模型在 Codeforces 编程问题上的推理能力，发现了潜在的数据污染问题，并探索了多种方法来解决这些挑战，强调了评估 LLMs 真正推理能力的重要性和未来更强大推理能力和更好泛化性能的发展。

Dec, 2023

面向关系推理的 LLMs：我们离目标有多远？

通过对归纳逻辑编程基准测试的深入评估，本研究表明与模型规模较小的神经程序归纳系统相比，最新的大型语言模型在推理能力方面表现较差，无论是使用自然语言提示还是真值矩阵提示，它们在性能和泛化方面都表现较低。

Jan, 2024

大型语言模型逻辑推理的教学学习

通过对大型语言模型的研究，我们发现它们在逻辑推理方面存在缺陷，导致其在任务解决中产生反事实的答案。为了解决这个问题，我们提出了多种策略，赋予大型语言模型逻辑推理能力，从而使其能够在不同场景中生成更符合逻辑的答案。我们还通过构建一个综合数据集 (LMM-LR) 对该方法进行了评估和预训练。在不同任务上进行了广泛的定量和定性分析，验证了通过逻辑训练大型语言模型的有效性和必要性，并为将来的工作提供了启示。

Oct, 2023

导航迷宫：评估和提高 LLMs 处理搜索问题的能力

最近，大型语言模型在数学和推理基准测试中取得了令人瞩目的表现。但是，它们在对人类而言相对容易的逻辑问题和谜题上仍然经常遇到困难。为了进一步研究这个问题，我们引入了一个名为 SearchBench 的新基准测试，其中包含 11 种独特的搜索问题类型，每种问题类型都配备了自动化流程来生成任意数量的实例，并分析 LLM 生成解决方案的可行性、正确性和最优性。我们发现，即使是最先进的 LLM 也无法完全以文本方式解决这些问题，例如 GPT4 只解决了 1.4% 的问题。SearchBench 的问题要求考虑到多个解决路径以及回溯，这对自回归模型构成了重大挑战。指导 LLM 生成解决问题的代码会有所帮助，但是仅有轻微的改进，例如 GPT4 的表现提升到了 11.7%。在这项工作中，我们展示了利用 A * 算法实现的上下文学习如何提高性能。当将这种优化方法与我们提出的多阶段多尝试方法相结合时，它的潜力得到了充分展现，将 GPT-4 的表现提升到了 57% 以上。

Jun, 2024