从错误中学习使 LLM 成为更好的推理者

Oct, 2023

从错误中学习使 LLM 成为更好的推理者

Learning From Mistakes Makes LLM Better Reasoner

Shengnan An, Zexiong Ma, Zeqi Lin, Nanning Zheng, Jian-Guang Lou...

TL;DR利用 Learning from Mistakes（LeMa）方法，本研究利用大型语言模型（LLMs）对数学问题的解决能力进行改进，仿照人类学习过程中的错误驱动学习机制，通过与 GPT-4 生成的错误更正数据对进行微调，实验证明 LeMa 提升了性能，在 5 个 LLMs 和 2 个数学推理任务中持续改善性能，并在特定 LLMs（如 WizardMath 和 MetaMath）上表现出色，在具有挑战性的任务上超越了开源模型的性能。

Abstract

large language models (LLMs) recently exhibited remarkable reasoning capabilities on solving math problems. To further improve this capability, this work proposes learning from mistakes (LeMa), akin to human lear

large language models learning from mistakes math problem solving fine-tuning error-driven learning

发现论文，激发创造

揭示致命缺陷：评估 LLM 在数学推理中处理错误的能力

通过引入一个包含正确和错误推理步骤的新数据集 MWP-MISTAKE，本研究重点探讨了大型语言模型在检测和纠正推理错误方面的能力，并通过全面的基准测试揭示了目前最先进模型（如 GPT-4o，GPT-4，GPT-3.5Turbo 等）的优点和缺点。此外，我们还发现涉及数据污染和记忆的问题，影响了大型语言模型在实际应用中的可靠性，因此强调了对推理过程进行严格评估的重要性，并提出了提高大型语言模型在数学问题解决中泛化性和鲁棒性的未来方向。

Jun, 2024

从正确性学习，无需提示使 LLM 高效推理

利用多步骤推理方法和生成概率的置信度度量，我们提出了一种内在的自我纠正推理框架，无需人类反馈、外部工具和手工提示，在不学习错误的情况下提高大型语言模型的推理性能。实验证实了该框架在各种多步骤推理任务中改善了推理性能，同时减少了令牌的使用。

Mar, 2024

基于错误学习的 LLM 教学：自动化模型改进

该研究介绍了创新的 “LLMs 作为教师” 的框架，利用先进的大型语言模型（LLMs）自动增强较小目标模型的训练。采用 “学习错误” 理论启发，该框架使用教师 LLM 细致分析目标模型中的具体错误，促进有针对性和高效的训练周期。通过 “学习错误” 和 “对比学习从错误中学习”，该框架实施了两种策略，分别关注错误响应以个性化训练数据，并分析正确和错误响应以更深入理解错误。使用多个开源模型进行的实证研究表明，在数理推理、编码能力和事实知识等多个基准测试中都取得了显著的改进。值得注意的是，改进后的 Llama-3-8b-Instruction 的表现超过了 ChatGPT，证明了我们方法的有效性。通过充分利用两种策略的优势，我们在领域内外基准测试上获得了更加平衡的性能提升。我们的代码可在此 https URL 找到。

Jun, 2024

民主化推理能力：从大型语言模型的个性化学习

通过多轮互动学习范式和自我反思学习，我们提出了一种定制化学习方法，从而将推理能力传授给较小的语言模型，以促进推理能力的开放和普及。

Oct, 2023

评估大型语言模型的数学推理能力：重点关注错误识别和纠正

我们通过定义四个评估任务，并设计多样的提示来全面评估十一种代表性的 LLM 模型，从考官的角度出发，为错误识别和修正提供了新的数据集和注释的错误类型和步骤。研究结果表明 GPT-4 在所有模型中表现最佳，而开源模型 LLaMA-2-7B 的能力与闭源模型 GPT-3.5 和 Gemini Pro 相当。尤其是计算错误被证明是最具挑战性的错误类型。此外，使用错误类型提示 LLM 可以将平均修正准确率提高 47.9%。这些结果揭示了开发 LLM 的数学推理能力的潜在方向。

Jun, 2024

LLMs 是否能够推理计算？

利用分布式网络的 “归纳学习” 方法可以提高小型语言模型的推理能力，从而弥补其依赖统计模式容易产生错误答案的局限性，并可能使其逼近高参数模型在逻辑应用上所取得的水平，从而弥合人类和大型语言模型在各个领域之间的逻辑差距。

Feb, 2024

LLMs 能否从以往错误中学习？调查 LLMs 的错误以提升推理能力

这项研究从提示和模型调整的角度探究 LLMs 是否能够从错误中学习和受益，特别是在推理方面，通过引入 CoTErrorSet 基准测试，设计了自我反思提示和错误调整两种方法，证明 LLMs 能够从错误中受益，进而增强其推理能力，并对 LLMs 错误原因进行了深入分析。

Mar, 2024

初学者学习者与专家导师：评估具有误解的大型语言模型的数学推理能力

我们提出了一种基于数学误解的大型语言模型（LLM）数学推理能力的新评估方法。我们通过模拟 LLMs 作为初学者和专家导师，旨在识别由于特定误解导致的错误答案，并识别一个错误答案背后的误解。与传统基于 LLMs 的数学评估侧重于正确回答数学问题不同，我们的方法受到教育学习科学原则的启发。我们要求 LLMs 明确地模仿初学者通过基于不完整知识的特定错误方式回答问题，并模仿专家导师识别与问题的错误答案相对应的误解。通过简单的小学数学问题实验，我们发现，尽管 LLMs 可以轻松正确回答这些问题，但它们难以识别：1）与特定不完整知识（误解）相对应的错误答案；2）解释特定错误答案的误解。我们的研究指出了增强 LLMs 数学推理能力的新机会，尤其是在教育应用中开发健壮的学生模拟和专家辅导模型方面。

Oct, 2023

大型语言模型逻辑推理的教学学习

通过对大型语言模型的研究，我们发现它们在逻辑推理方面存在缺陷，导致其在任务解决中产生反事实的答案。为了解决这个问题，我们提出了多种策略，赋予大型语言模型逻辑推理能力，从而使其能够在不同场景中生成更符合逻辑的答案。我们还通过构建一个综合数据集 (LMM-LR) 对该方法进行了评估和预训练。在不同任务上进行了广泛的定量和定性分析，验证了通过逻辑训练大型语言模型的有效性和必要性，并为将来的工作提供了启示。

Oct, 2023

LogicLLM: 探索基于自监督逻辑增强训练的大型语言模型

本篇论文主要介绍了如何通过自监督后训练和上下文学习来增加逻辑知识，从而提高语言模型的逻辑推理能力，取得了比现有基线更好的效果。

May, 2023