关于自我纠正和语言模型信任的交叉问题

Nov, 2023

关于自我纠正和语言模型信任的交叉问题

On the Intersection of Self-Correction and Trust in Language Models

Satyapriya Krishna

TL;DR通过探索大型语言模型的自我纠正能力，研究发现自我纠正能够提升大型语言模型的可信度和真实性，但这种改进程度会根据可信度的具体方面和任务的性质而有所不同，并发现大型语言模型在自我纠正过程中存在自我怀疑的实例，带来了一系列需要解决的新挑战。

Abstract

large language models (LLMs) have demonstrated remarkable capabilities in performing complex cognitive tasks. However, their complexity and lack of transparency have raised several trustworthiness concerns, inclu

large language models trustworthiness self-correction toxicity truthfulness

发现论文，激发创造

大型语言模型尚未能够自校正推理

本文探讨了自我纠错在大型语言模型中的作用和效果，发现大型语言模型在没有外部反馈的情况下难以自我纠正其回应，在某些情况下，性能甚至可能在自我纠正后下降。基于这些发现，提出了未来研究和实际应用的建议。

Oct, 2023

关于 LLMs 的内在自我修正能力：不确定性和潜在概念

通过使用适当的指示，大型语言模型可以利用内在的自我纠正能力，从而提高其回答的准确性和性能，这在大规模自然语言生成中具有潜在的扩展性。同时，通过分析模型不确定性和激活的潜在概念，可以更好地理解和指导自我纠正行为。此原理还可以推广到视觉语言模型，并且在任务无关的去偏领域有潜在的应用价值。

Jun, 2024

信心的重要性：重审大型语言模型的内在自我纠正能力

研究综合调查了大型语言模型（LLM）的内在自我修正能力，并提出了一种基于 “confidence” 的 “If-or-Else” 提示框架，以帮助提升自我修正能力的准确性。

Feb, 2024

自动修正大规模语言模型：多样化自我纠正策略概述

大语言模型自我修正的技术，包括训练和生成阶段的自动反馈，被广泛应用于解决大语言模型在自然语言处理任务中的错误和缺陷问题。

Aug, 2023

大型语言模型具有内在的自我纠正能力

大型语言模型具有在各种自然语言处理任务中引人注目的能力，但它们存在产生错误信息的问题，自校正被视为提高模型性能的一种解决方案，其中内在自校正被认为是一种有前途的方向。本文通过理论分析和实证实验，对大型语言模型的内在自校正能力提出了新的观点，并确定了两个关键因素：零温度和公正提示，利用这些因素证明内在自校正能力存在于多个现有大型语言模型中。我们的发现揭示了大型语言模型自我纠正行为的基本原理，并强调在发挥其全部潜力上公正提示和零温度设置的重要性。

Jun, 2024

自校正的理论认识与上下文对齐

基于一种类似于对齐任务的简化设置，我们从上下文学习的角度对自我纠正进行理论分析，显示出大语言模型通过给予相对准确的自我检查作为奖励，能够以上下文的方式改进响应。我们的理论构建突破了之前关于过于简化的线性变换器的理论，阐述了现实变换器的几个关键设计在自我纠正中的作用：softmax 关注、多头关注和 MLP 块。经过广泛的合成数据集验证，我们进一步阐述了自我纠正的新应用，例如抵制大型语言模型越狱，其中简单的自我纠正步骤确实产生了很大的差异。我们相信这些发现将激发进一步研究自我纠正的理解、利用和增强，以构建更好的基础模型。

May, 2024

TrustLLM：大型语言模型的可信性

介绍了 TrustLLM，这是一个关于 LLM（大型语言模型）信任度的综合研究，包括不同维度的信任度原则、建立的基准、评估和分析主流 LLM 的信任度，以及对开放挑战和未来方向的讨论。

Jan, 2024

LLM 能够自我纠错的实际时机研究：对 LLM 自我纠错的关键调查

通过对大型语言模型（LLMs）进行自我纠正来提高其回答效果是一种改进方法。本文对自我纠正的研究条件进行了关键性调查，发现以往研究往往缺乏详细定义的研究问题，使用非实用的框架和过度评估自我纠正。通过对新分类的研究问题进行关键性调查，我们发现：（1）以提示的 LLMs 反馈进行自我纠正的先前工作没有成功的示例；（2）自我纠正在可以使用可靠的外部反馈的任务中效果良好；（3）大规模微调可以实现自我纠正。

Jun, 2024

两全其美：迈向一个真实和有用的大型语言模型

这篇论文介绍了如何通过确保大语言模型的诚实和帮助性来优化其在实际应用中的表现，包括建立诚实的准则、引入数据集进行评估和提出两种增强诚实和帮助性的方法。实验证明，这些增强方法可以显著提升大语言模型的诚实性和帮助性，有望为开发更可靠的实际应用语言模型奠定基础。

Jun, 2024

N-Critics: 大型语言模型的自我提升与评论家集成

提出了一种用于改善大型语言模型的自我纠正机制，通过批评家与模型自己的反馈对模型输出进行精炼，以减轻毒性和事实幻觉等问题。通过人类行为的启发，探讨了大型语言模型是否可以模仿人类的自我纠正过程，即借助自评和寻求他人意见来完善对复杂主题的理解。该方法与特定模型无关，可应用于各个领域，通过解决公平性、偏见和鲁棒性问题，提高可信度。我们始终观察到大型语言模型在减少毒性和纠正事实错误方面的性能改进。

Oct, 2023