语言模型自我修复的探索

Feb, 2024

Explorations of Self-Repair in Language Models

Cody Rushing, Neel Nanda

TL;DR这篇论文研究对窄分布进行解释性研究，发现了自我修复现象，该现象表明，如果在大型语言模型中去除组件，后续的组件会改变其行为以进行补偿。我们的研究基于过去的文献，证明了当去除全训练分布上的单个注意力头时，自我修复存在于各种模型家族和规模上。我们进一步展示了全训练分布上的自我修复是不完美的，因为头部的原始直接效应没有完全恢复，并且是不稳定的，因为自我修复的程度在不同的提示之间变化显著（有时会超出原始效应的矫正）。我们强调了两种不同的机制对自我修复的贡献，包括最终的 LayerNorm 比例因子的变化（可修复达到 30% 的直接效应）和实施反擦除的稀疏神经元集合。此外，我们还讨论了这些结果对解释性从业者的影响，并在结束时对为什么这些模型中会出现自我修复的谜团进行了更具推测性的讨论，强调了语言模型中迭代推理假设的证据。

Abstract

Prior interpretability research studying narrow distributions has preliminarily identified self-repair, a phenomena where if components in large language models are ablated, later components will change their beh

interpretability research self-repair attention heads layernorm scaling factor anti-erasure

发现论文，激发创造

水蛇效应：语言模型计算中的紧急自修

我们使用因果分析研究语言模型计算的内部结构，并展示了两种模式：(1) 一种适应性计算形式，其中对语言模型的一个注意力层进行去除会导致另一个层进行补偿（我们将其称为 Hydra 效应），以及 (2) 后期 MLP 层的反平衡功能，用于降低最大似然标记。我们的去除研究表明，语言模型层通常相对较松散耦合（对一个层的去除只会影响少量下游层）。令人惊讶的是，即使是在没有任何形式的 dropout 的语言模型训练中，这些效应仍会发生。我们在事实回忆的背景下分析了这些效应，并考虑了它们对语言模型中的电路级归因的影响。

Jul, 2023

自校正的理论认识与上下文对齐

基于一种类似于对齐任务的简化设置，我们从上下文学习的角度对自我纠正进行理论分析，显示出大语言模型通过给予相对准确的自我检查作为奖励，能够以上下文的方式改进响应。我们的理论构建突破了之前关于过于简化的线性变换器的理论，阐述了现实变换器的几个关键设计在自我纠正中的作用：softmax 关注、多头关注和 MLP 块。经过广泛的合成数据集验证，我们进一步阐述了自我纠正的新应用，例如抵制大型语言模型越狱，其中简单的自我纠正步骤确实产生了很大的差异。我们相信这些发现将激发进一步研究自我纠正的理解、利用和增强，以构建更好的基础模型。

May, 2024

揭秘 GPT 自我修复代码生成

本文分析了 GPT-3.5 和 GPT-4 在 APPs 数据集上自我修复的能力，发现只在 GPT-4 上看到了自我修复的有效性，并且发现自我修复被反馈阶段所限制。

Jun, 2023

实时学习生成并修复语言

在这篇论文中，我们使用先前学习的动态句法语法和 CHILDES 语料库开发、训练和评估了一个概率模型，该模型用于增量生成，其中模型的输入是纯语义生成目标概念（TTR）。我们证明了该模型的输出与黄金候选项的准确匹配率为 78％，ROUGE-l 评分为 0.86。我们进一步对同一模型在生成目标在发话过程中发生变化时产生自我修复的能力进行了零次评估。自动评估显示模型能够在 85％的情况下正确生成自我修复。小规模的人工评估确认了生成的自我修复的自然性和语法性。总体而言，这些结果进一步突显了基于语法的模型的泛化能力，并为更可控和自然交互的对话型人工智能系统奠定了基础。

Aug, 2023

自动修正大规模语言模型：多样化自我纠正策略概述

大语言模型自我修正的技术，包括训练和生成阶段的自动反馈，被广泛应用于解决大语言模型在自然语言处理任务中的错误和缺陷问题。

Aug, 2023

大型语言模型具有内在的自我纠正能力

大型语言模型具有在各种自然语言处理任务中引人注目的能力，但它们存在产生错误信息的问题，自校正被视为提高模型性能的一种解决方案，其中内在自校正被认为是一种有前途的方向。本文通过理论分析和实证实验，对大型语言模型的内在自校正能力提出了新的观点，并确定了两个关键因素：零温度和公正提示，利用这些因素证明内在自校正能力存在于多个现有大型语言模型中。我们的发现揭示了大型语言模型自我纠正行为的基本原理，并强调在发挥其全部潜力上公正提示和零温度设置的重要性。

Jun, 2024

抑制复制：全面理解注意力头

GPT-2 Small 模型的 Attention Head 10.7 (L10H7) 通过抑制复制行为实现模型校准和自修复。

Oct, 2023

自奖励语言模型

通过自我奖励语言模型的迭代 DPO 训练，本研究展示了模型的指示遵循能力及为自身提供高质量奖励的能力的提升，最终的 Llama 2 70B 模型在 AlpacaEval 2.0 排行榜上表现优于许多现有系统，包括 Claude 2、Gemini Pro 和 GPT-4 0613。这项初步研究为模型在两个方向上不断改进的可能性打开了大门。

Jan, 2024

大型语言模型内在的道德自我修正能力

通过三个实验，我们得出结论：通过人类反馈训练的强化学习语言模型具有道德自我纠正的能力，具备遵守伦理原则的潜力。

Feb, 2023

通过知识检测自我训练大型语言模型

该论文研究自训练范式，其中大型语言模型 (Large language models, LLMs) 通过自主策划标签并选择性地在未知数据样本上训练，以显著改善多个主题中生成中的虚构问题。此外，选择性训练框架在处理超出分布基准的灾难性遗忘时具有重要意义，解决了训练 LLMs 过程中的关键限制。我们的研究结果表明，这种方法可以大幅减少对大规模标记数据的依赖，为更可伸缩和经济有效的语言模型训练铺平了道路。

Jun, 2024