从正确性学习，无需提示使 LLM 高效推理

Mar, 2024

从正确性学习，无需提示使 LLM 高效推理

Learning From Correctness Without Prompting Makes LLM Efficient Reasoner

Yuxuan Yao, Han Wu, Zhijiang Guo, Biyan Zhou, Jiahui Gao...

TL;DR利用多步骤推理方法和生成概率的置信度度量，我们提出了一种内在的自我纠正推理框架，无需人类反馈、外部工具和手工提示，在不学习错误的情况下提高大型语言模型的推理性能。实验证实了该框架在各种多步骤推理任务中改善了推理性能，同时减少了令牌的使用。

Abstract

large language models (LLMs) have demonstrated outstanding performance across various tasks, yet they still exhibit limitations such as hallucination, unfaithful →

large language models reasoning self-correct confidence performance

发现论文，激发创造

从错误中学习使 LLM 成为更好的推理者

利用 Learning from Mistakes（LeMa）方法，本研究利用大型语言模型（LLMs）对数学问题的解决能力进行改进，仿照人类学习过程中的错误驱动学习机制，通过与 GPT-4 生成的错误更正数据对进行微调，实验证明 LeMa 提升了性能，在 5 个 LLMs 和 2 个数学推理任务中持续改善性能，并在特定 LLMs（如 WizardMath 和 MetaMath）上表现出色，在具有挑战性的任务上超越了开源模型的性能。

Oct, 2023

大型语言模型尚未能够自校正推理

本文探讨了自我纠错在大型语言模型中的作用和效果，发现大型语言模型在没有外部反馈的情况下难以自我纠正其回应，在某些情况下，性能甚至可能在自我纠正后下降。基于这些发现，提出了未来研究和实际应用的建议。

Oct, 2023

大型语言模型可轻松自我修正

大型语言模型 (LLMs) 的内在自我纠正能力受到了研究，然而，通过掩盖问题中的关键条件，添加当前答案构建验证问题，并预测条件以验证答案的简单但有效的验证方法，提出了逐步识别和纠正可能的错误响应的迭代验证 - 纠正框架，命名为 ProCo。与自我纠正相比，ProCo 在三种推理任务中的性能明显提高。

May, 2024

小型语言模型需要强大的验证器来自我修正推理

在小型语言模型上进行自我纠正训练以提高推理能力，通过使用正确解决方案引导模型对不正确的回答进行批判，并使用生成的批评经过筛选后进行自我纠正理由的监督微调，实验证明在数学和常识推理方面的五个数据集上两种模型的自我纠正能力得到了提升，与 GPT-4 基于验证器的强配对时取得了显著的性能提升，但使用弱自验证器来确定何时进行更正存在一定的限制。

Apr, 2024

自我解释：教大型语言模型自行推理复杂问题

聚焦大型语言模型，探索通过自我解释生成复杂问题的过程，发现自我解释可以使模型更自信、更准确、更少倾向性地回答问题，甚至在几个复杂问题回答数据集上优于人工生成的示例。

Nov, 2023

自动修正大规模语言模型：多样化自我纠正策略概述

大语言模型自我修正的技术，包括训练和生成阶段的自动反馈，被广泛应用于解决大语言模型在自然语言处理任务中的错误和缺陷问题。

Aug, 2023

学会检查：释放大型语言模型中的自我纠正潜能

通过精心设计的训练数据、详细分析数学推理中的错误类型并构建了一个自检修正数据集，本研究旨在增强大型语言模型的自检能力，从而提高自我修正的准确性。在与其他检查 - 修正数据相关的情境中，使用 “Step CoT Check” 提示进行微调的模型表现更好，提供更精确的反馈，从而达到更高的正确率。

Feb, 2024

LLMs 不能发现推理错误，但可以修正它们！

本文将自我纠错过程分解为失误发现和输出校正两个核心组成部分，并对几种最先进的 LLM 进行了基准测试，结果显示 LLM 在发现逻辑错误方面普遍存在困难。针对输出校正，我们提出了一种回溯法，并证明当提供失误位置信息时，该方法能够明显改善性能。我们将回溯法视为轻量级替代强化学习方法的方式，并展示在准确率达到 60-70% 的奖励模型下依然有效。

Nov, 2023

LLMs 通过教学思路链找到数学推理错误

通过引入一种独特的提示策略，名为教育思维链（PedCoT），该研究论文提出了一种有效识别推理错误的方法，并在数学问题中取得了显著优于基线模型的结果。

May, 2024

SelfCheck: 使用 LLMs 检查自己的逐步推理的零 - shot 方法

最近大语言模型（LLM），特别是链式思维（CoT）提示的发明，使得解决推理问题成为可能。本文探讨 LLMs 是否具备识别自身错误的能力，无需外部资源。具体而言，我们研究它们是否能够用于识别逐步推理中的个别错误。为此，我们提出了一种零 - shot 验证方案来识别这些错误。然后，我们使用这个验证方案来提高问题回答的性能，通过对不同生成答案进行加权投票。我们在三个数学数据集 - GSM8K，MathQA 和 MATH 上测试了该方法，发现它成功地识别错误，并进而提高了最终的预测性能。

Aug, 2023