LLMs 不能发现推理错误，但可以修正它们！

Nov, 2023

LLMs 不能发现推理错误，但可以修正它们！

LLMs cannot find reasoning errors, but can correct them!

Gladys Tyen, Hassan Mansoor, Peter Chen, Tony Mak, Victor Cărbune

TL;DR本文将自我纠错过程分解为失误发现和输出校正两个核心组成部分，并对几种最先进的 LLM 进行了基准测试，结果显示 LLM 在发现逻辑错误方面普遍存在困难。针对输出校正，我们提出了一种回溯法，并证明当提供失误位置信息时，该方法能够明显改善性能。我们将回溯法视为轻量级替代强化学习方法的方式，并展示在准确率达到 60-70% 的奖励模型下依然有效。

Abstract

While self-correction has shown promise in improving llm outputs in terms of style and quality (e.g. Chen et al., 2023; Madaan et al., 2023), recent attempts to self-correct logical or reasoning errors often caus

self-correction llm outputs mistake finding output correction backtracking method

发现论文，激发创造

LLMs 通过教学思路链找到数学推理错误

通过引入一种独特的提示策略，名为教育思维链（PedCoT），该研究论文提出了一种有效识别推理错误的方法，并在数学问题中取得了显著优于基线模型的结果。

May, 2024

大型语言模型尚未能够自校正推理

本文探讨了自我纠错在大型语言模型中的作用和效果，发现大型语言模型在没有外部反馈的情况下难以自我纠正其回应，在某些情况下，性能甚至可能在自我纠正后下降。基于这些发现，提出了未来研究和实际应用的建议。

Oct, 2023

SelfCheck: 使用 LLMs 检查自己的逐步推理的零 - shot 方法

最近大语言模型（LLM），特别是链式思维（CoT）提示的发明，使得解决推理问题成为可能。本文探讨 LLMs 是否具备识别自身错误的能力，无需外部资源。具体而言，我们研究它们是否能够用于识别逐步推理中的个别错误。为此，我们提出了一种零 - shot 验证方案来识别这些错误。然后，我们使用这个验证方案来提高问题回答的性能，通过对不同生成答案进行加权投票。我们在三个数学数据集 - GSM8K，MathQA 和 MATH 上测试了该方法，发现它成功地识别错误，并进而提高了最终的预测性能。

Aug, 2023

从正确性学习，无需提示使 LLM 高效推理

利用多步骤推理方法和生成概率的置信度度量，我们提出了一种内在的自我纠正推理框架，无需人类反馈、外部工具和手工提示，在不学习错误的情况下提高大型语言模型的推理性能。实验证实了该框架在各种多步骤推理任务中改善了推理性能，同时减少了令牌的使用。

Mar, 2024

小型语言模型需要强大的验证器来自我修正推理

在小型语言模型上进行自我纠正训练以提高推理能力，通过使用正确解决方案引导模型对不正确的回答进行批判，并使用生成的批评经过筛选后进行自我纠正理由的监督微调，实验证明在数学和常识推理方面的五个数据集上两种模型的自我纠正能力得到了提升，与 GPT-4 基于验证器的强配对时取得了显著的性能提升，但使用弱自验证器来确定何时进行更正存在一定的限制。

Apr, 2024

从错误中学习使 LLM 成为更好的推理者

利用 Learning from Mistakes（LeMa）方法，本研究利用大型语言模型（LLMs）对数学问题的解决能力进行改进，仿照人类学习过程中的错误驱动学习机制，通过与 GPT-4 生成的错误更正数据对进行微调，实验证明 LeMa 提升了性能，在 5 个 LLMs 和 2 个数学推理任务中持续改善性能，并在特定 LLMs（如 WizardMath 和 MetaMath）上表现出色，在具有挑战性的任务上超越了开源模型的性能。

Oct, 2023

LLMs 能否从以往错误中学习？调查 LLMs 的错误以提升推理能力

这项研究从提示和模型调整的角度探究 LLMs 是否能够从错误中学习和受益，特别是在推理方面，通过引入 CoTErrorSet 基准测试，设计了自我反思提示和错误调整两种方法，证明 LLMs 能够从错误中受益，进而增强其推理能力，并对 LLMs 错误原因进行了深入分析。

Mar, 2024

揭示致命缺陷：评估 LLM 在数学推理中处理错误的能力

通过引入一个包含正确和错误推理步骤的新数据集 MWP-MISTAKE，本研究重点探讨了大型语言模型在检测和纠正推理错误方面的能力，并通过全面的基准测试揭示了目前最先进模型（如 GPT-4o，GPT-4，GPT-3.5Turbo 等）的优点和缺点。此外，我们还发现涉及数据污染和记忆的问题，影响了大型语言模型在实际应用中的可靠性，因此强调了对推理过程进行严格评估的重要性，并提出了提高大型语言模型在数学问题解决中泛化性和鲁棒性的未来方向。

Jun, 2024

LLM 能够自我纠错的实际时机研究：对 LLM 自我纠错的关键调查

通过对大型语言模型（LLMs）进行自我纠正来提高其回答效果是一种改进方法。本文对自我纠正的研究条件进行了关键性调查，发现以往研究往往缺乏详细定义的研究问题，使用非实用的框架和过度评估自我纠正。通过对新分类的研究问题进行关键性调查，我们发现：（1）以提示的 LLMs 反馈进行自我纠正的先前工作没有成功的示例；（2）自我纠正在可以使用可靠的外部反馈的任务中效果良好；（3）大规模微调可以实现自我纠正。

Jun, 2024

自动修正大规模语言模型：多样化自我纠正策略概述

大语言模型自我修正的技术，包括训练和生成阶段的自动反馈，被广泛应用于解决大语言模型在自然语言处理任务中的错误和缺陷问题。

Aug, 2023