学会检查：释放大型语言模型中的自我纠正潜能

Feb, 2024

学会检查：释放大型语言模型中的自我纠正潜能

Learning to Check: Unleashing Potentials for Self-Correction in Large Language Models

Che Zhang, Zhenyang Xiao, Chengcheng Han, Yixin Lian, Yuejian Fang

TL;DR通过精心设计的训练数据、详细分析数学推理中的错误类型并构建了一个自检修正数据集，本研究旨在增强大型语言模型的自检能力，从而提高自我修正的准确性。在与其他检查 - 修正数据相关的情境中，使用 “Step CoT Check” 提示进行微调的模型表现更好，提供更精确的反馈，从而达到更高的正确率。

Abstract

large language models (LLMs) have made significant strides in reasoning capabilities, with ongoing efforts to refine their reasoning throu

large language models self-correction reasoning training data error analysis

发现论文，激发创造

SelfCheck: 使用 LLMs 检查自己的逐步推理的零 - shot 方法

最近大语言模型（LLM），特别是链式思维（CoT）提示的发明，使得解决推理问题成为可能。本文探讨 LLMs 是否具备识别自身错误的能力，无需外部资源。具体而言，我们研究它们是否能够用于识别逐步推理中的个别错误。为此，我们提出了一种零 - shot 验证方案来识别这些错误。然后，我们使用这个验证方案来提高问题回答的性能，通过对不同生成答案进行加权投票。我们在三个数学数据集 - GSM8K，MathQA 和 MATH 上测试了该方法，发现它成功地识别错误，并进而提高了最终的预测性能。

Aug, 2023

小型语言模型需要强大的验证器来自我修正推理

在小型语言模型上进行自我纠正训练以提高推理能力，通过使用正确解决方案引导模型对不正确的回答进行批判，并使用生成的批评经过筛选后进行自我纠正理由的监督微调，实验证明在数学和常识推理方面的五个数据集上两种模型的自我纠正能力得到了提升，与 GPT-4 基于验证器的强配对时取得了显著的性能提升，但使用弱自验证器来确定何时进行更正存在一定的限制。

Apr, 2024

大型语言模型可轻松自我修正

大型语言模型 (LLMs) 的内在自我纠正能力受到了研究，然而，通过掩盖问题中的关键条件，添加当前答案构建验证问题，并预测条件以验证答案的简单但有效的验证方法，提出了逐步识别和纠正可能的错误响应的迭代验证 - 纠正框架，命名为 ProCo。与自我纠正相比，ProCo 在三种推理任务中的性能明显提高。

May, 2024

LLMs 通过教学思路链找到数学推理错误

通过引入一种独特的提示策略，名为教育思维链（PedCoT），该研究论文提出了一种有效识别推理错误的方法，并在数学问题中取得了显著优于基线模型的结果。

May, 2024

大型语言模型尚未能够自校正推理

本文探讨了自我纠错在大型语言模型中的作用和效果，发现大型语言模型在没有外部反馈的情况下难以自我纠正其回应，在某些情况下，性能甚至可能在自我纠正后下降。基于这些发现，提出了未来研究和实际应用的建议。

Oct, 2023

信心的重要性：重审大型语言模型的内在自我纠正能力

研究综合调查了大型语言模型（LLM）的内在自我修正能力，并提出了一种基于 “confidence” 的 “If-or-Else” 提示框架，以帮助提升自我修正能力的准确性。

Feb, 2024

自动修正大规模语言模型：多样化自我纠正策略概述

大语言模型自我修正的技术，包括训练和生成阶段的自动反馈，被广泛应用于解决大语言模型在自然语言处理任务中的错误和缺陷问题。

Aug, 2023

大型语言模型是具有自我验证功能的推理器

提出了一种名为自验证的方法，该方法使用推理链的结论作为条件建立新的样本，并要求大型语言模型重新预测原始条件，从而降低了多任务精度误差。经过大量实验验证，此方法可以使大型语言模型避免出现不正确的推理链干扰，并实现具有竞争力的推理性能，可用于算术和逻辑推理数据集的有限次学习。

Dec, 2022

从正确性学习，无需提示使 LLM 高效推理

利用多步骤推理方法和生成概率的置信度度量，我们提出了一种内在的自我纠正推理框架，无需人类反馈、外部工具和手工提示，在不学习错误的情况下提高大型语言模型的推理性能。实验证实了该框架在各种多步骤推理任务中改善了推理性能，同时减少了令牌的使用。

Mar, 2024

自校正的理论认识与上下文对齐

基于一种类似于对齐任务的简化设置，我们从上下文学习的角度对自我纠正进行理论分析，显示出大语言模型通过给予相对准确的自我检查作为奖励，能够以上下文的方式改进响应。我们的理论构建突破了之前关于过于简化的线性变换器的理论，阐述了现实变换器的几个关键设计在自我纠正中的作用：softmax 关注、多头关注和 MLP 块。经过广泛的合成数据集验证，我们进一步阐述了自我纠正的新应用，例如抵制大型语言模型越狱，其中简单的自我纠正步骤确实产生了很大的差异。我们相信这些发现将激发进一步研究自我纠正的理解、利用和增强，以构建更好的基础模型。

May, 2024