电路打破：有针对性地消除模型行为

Sep, 2023

电路打破：有针对性地消除模型行为

Circuit Breaking: Removing Model Behaviors with Targeted Ablation

Maximilian Li, Xander Davies, Max Nadeau

TL;DR通过消除模型组件之间少量的因果路径的方法，我们提出了一种消除不良行为的新方法，以禁用负责产生不良行为的计算电路，从而改善语言模型的性能。在减少 GPT-2 有害语言生成的情景中，我们发现仅消除 11.6K 个因果边中的 12 个边可有效减轻有害生成，并对其他输入的性能造成最小的恶化。

Abstract

language models often exhibit behaviors that improve performance on a pre-training objective but harm performance on downstream tasks. We

language models behavior performance causal pathways toxic language generation

发现论文，激发创造

分析和编辑植入后门的语言模型内部机制

本文介绍了一种新的可解释工具 PCP ablation，通过替换 MLP 和 attention 层的模块，减少模型参数和行为，剖析 transformer 语言模型的内部情感变化处理机制，为后门机制的删除、插入和修改工程化替代提供了重要的指导。

Feb, 2023

基于消融的反事实

通过模型削弱而非模型重新训练的方式，引入了基于消融的反事实分析（ABC）方法来分析扩散模型如何依赖其训练数据。使用扩散模型集合构建模型，并通过完全反事实景观计数来研究训练数据的属性限制，并展示了无法归因的样本的存在。

Jun, 2024

通过切除和归因来分解抽象摘要模型的生成模式

本文提出了一种两步解释自然语言生成的方法，通过对自然语言生成器生成标注的决策进行分类并解释，以确定生成指定层级的下一个标注所依赖的输入内容。

Jun, 2021

使用电路探针揭示变形金刚中的因果变量

神经网络模型在各种复杂任务上取得了高性能，但它们所实现的算法往往难以解释。我们提出了一种新的分析技术 —— 电路探测，通过自动发现计算假定的中间变量的低层电路，实现了对模型参数级别的有针对性的切割，从而开展因果分析。我们对简单算术任务上的模型应用了这种方法，证明了它在（1）解密模型所学习的算法，（2）揭示模型内部结构以及（3）追踪电路在训练过程中的发展方面的有效性。我们将电路探测与其他方法在这三个实验中进行比较，发现它在效果上与现有的分析方法相当甚至更加有效。最后，我们在一个真实的应用案例中演示了电路探测的应用，发现了在 GPT2-Small 和 Medium 模型中负责主谓一致和反身指代的电路。

Nov, 2023

边缘修剪中的 Transformer 电路寻找

自动电路发现的一种有效且可扩展的解决方案是基于优化问题的边缘修剪，该方法在 GPT-2 模型中找到使用少于一半边缘的电路，并与之前的方法在速度和质量上表现出优势。

Jun, 2024

在 Transformer 语言模型中的电路组件重用

通过电路分析，揭示了语言模型中行为的机制性可解释性。证明了观察的洞见既适用于特定任务的发现，也适用于一般算法的发现，并通过调整注意头以修复电路来证明了这一过程的相似性。结果表明，大型语言模型的行为可以通过一些可解释的任务通用算法构建模块和计算组件来解释。

Oct, 2023

路径修补定位模型行为

本文介绍了一种名为 “路径修补” 的技术，通过该技术可以对神经网络的本地化行为进行量化测试，从而分析网络机制和可能的故障模式，并通过对 GPT-2 的行为进行表征来优化了归纳头的解释，并开源了一个运行类似实验的框架。

Apr, 2023

提高对齐性和鲁棒性的短路

AI 系统在面临对抗性攻击时可能会采取有害行为，本研究提出了一种基于表示工程的方法，通过直接控制导致有害输出的表示来防止有害输出的生成，从而在不牺牲实用性的前提下，提供了可靠的防止有害行为和对抗性攻击的保护措施。

Jun, 2024

水蛇效应：语言模型计算中的紧急自修

我们使用因果分析研究语言模型计算的内部结构，并展示了两种模式：(1) 一种适应性计算形式，其中对语言模型的一个注意力层进行去除会导致另一个层进行补偿（我们将其称为 Hydra 效应），以及 (2) 后期 MLP 层的反平衡功能，用于降低最大似然标记。我们的去除研究表明，语言模型层通常相对较松散耦合（对一个层的去除只会影响少量下游层）。令人惊讶的是，即使是在没有任何形式的 dropout 的语言模型训练中，这些效应仍会发生。我们在事实回忆的背景下分析了这些效应，并考虑了它们对语言模型中的电路级归因的影响。

Jul, 2023

驾驭内心恶魔：语言模型自我解毒

本文研究了语言模型在训练过程中产生有毒语言并放大的现象，分析研究了提示，解码策略和训练语料对于产生有毒输出的影响，提出一种简单而有效的 “解毒” 方法。和监督基准相比，我们提出的方法在多重设置下显示出更好的毒性降低和生成质量。

Mar, 2022