小型语言模型可以自我纠正

Jan, 2024

Small Language Model Can Self-correct

Haixia Han, Jiaqing Liang, Jie Shi, Qianyu He, Yanghua Xiao

TL;DR我们介绍了在生成式语言模型中的内在自我修正（ISC）方法，旨在通过自动触发方式来纠正 LM 的初始输出，即使对于具有 60 亿参数的小型 LM。我们通过构建自我修正数据和提出部分答案屏蔽（PAM）的管道来进行实验，结果表明使用 ISC 生成的输出优于没有自我修正的输出。我们相信，通过赋予它们内在自我纠正的能力，甚至小型 LM 的输出质量也可以进一步提高。

Abstract

generative language models (LMs) such as ChatGPT have exhibited remarkable performance across various downstream tasks. Nevertheless, one of their most prominent drawbacks is generating inaccurate or false information with a confident tone. Previous studies have devised sophisticated p

generative language models intrinsic self-correction large lms self-triggered output quality

发现论文，激发创造

大型语言模型具有内在的自我纠正能力

大型语言模型具有在各种自然语言处理任务中引人注目的能力，但它们存在产生错误信息的问题，自校正被视为提高模型性能的一种解决方案，其中内在自校正被认为是一种有前途的方向。本文通过理论分析和实证实验，对大型语言模型的内在自校正能力提出了新的观点，并确定了两个关键因素：零温度和公正提示，利用这些因素证明内在自校正能力存在于多个现有大型语言模型中。我们的发现揭示了大型语言模型自我纠正行为的基本原理，并强调在发挥其全部潜力上公正提示和零温度设置的重要性。

Jun, 2024

大型语言模型可轻松自我修正

大型语言模型 (LLMs) 的内在自我纠正能力受到了研究，然而，通过掩盖问题中的关键条件，添加当前答案构建验证问题，并预测条件以验证答案的简单但有效的验证方法，提出了逐步识别和纠正可能的错误响应的迭代验证 - 纠正框架，命名为 ProCo。与自我纠正相比，ProCo 在三种推理任务中的性能明显提高。

May, 2024

信心的重要性：重审大型语言模型的内在自我纠正能力

研究综合调查了大型语言模型（LLM）的内在自我修正能力，并提出了一种基于 “confidence” 的 “If-or-Else” 提示框架，以帮助提升自我修正能力的准确性。

Feb, 2024

小型语言模型需要强大的验证器来自我修正推理

在小型语言模型上进行自我纠正训练以提高推理能力，通过使用正确解决方案引导模型对不正确的回答进行批判，并使用生成的批评经过筛选后进行自我纠正理由的监督微调，实验证明在数学和常识推理方面的五个数据集上两种模型的自我纠正能力得到了提升，与 GPT-4 基于验证器的强配对时取得了显著的性能提升，但使用弱自验证器来确定何时进行更正存在一定的限制。

Apr, 2024

大型语言模型尚未能够自校正推理

本文探讨了自我纠错在大型语言模型中的作用和效果，发现大型语言模型在没有外部反馈的情况下难以自我纠正其回应，在某些情况下，性能甚至可能在自我纠正后下降。基于这些发现，提出了未来研究和实际应用的建议。

Oct, 2023

关于 LLMs 的内在自我修正能力：不确定性和潜在概念

通过使用适当的指示，大型语言模型可以利用内在的自我纠正能力，从而提高其回答的准确性和性能，这在大规模自然语言生成中具有潜在的扩展性。同时，通过分析模型不确定性和激活的潜在概念，可以更好地理解和指导自我纠正行为。此原理还可以推广到视觉语言模型，并且在任务无关的去偏领域有潜在的应用价值。

Jun, 2024

自校正的理论认识与上下文对齐

基于一种类似于对齐任务的简化设置，我们从上下文学习的角度对自我纠正进行理论分析，显示出大语言模型通过给予相对准确的自我检查作为奖励，能够以上下文的方式改进响应。我们的理论构建突破了之前关于过于简化的线性变换器的理论，阐述了现实变换器的几个关键设计在自我纠正中的作用：softmax 关注、多头关注和 MLP 块。经过广泛的合成数据集验证，我们进一步阐述了自我纠正的新应用，例如抵制大型语言模型越狱，其中简单的自我纠正步骤确实产生了很大的差异。我们相信这些发现将激发进一步研究自我纠正的理解、利用和增强，以构建更好的基础模型。

May, 2024

大型语言模型可以引导逃避 AI 生成的文本检测

在该研究中，我们提出了一种新颖的基于替换的上下文示例优化方法（SICO），通过精心设计的提示语，有效地使 ChatGPT 躲避现有的六个检测器，揭示了现有检测器的易感性，并展示了 SICO 的强大性能和可靠性，证实其作为该领域任何新检测器的有效评估协议。

May, 2023

自我确信的激励机制：反复审视下的少样本问答

利用大规模预训练语言模型，通过迭代增强和定制提示来提升其在复杂任务中的性能。

Oct, 2023

DetectGPT-SC: 通过掩码预测的自一致性提升大型语言模型生成文本的检测

ChatGPT 的自我一致性在文本生成和延续方面表现出较强的特点，这一特性被用来提出了一种检测 AI 生成文本的新方法 DetectGPT-SC，并在各种实验中展现了良好的性能。

Oct, 2023