AtP*：一种将 LLM 行为局部化到组件的高效可伸缩方法

Mar, 2024

AtP*：一种将 LLM 行为局部化到组件的高效可伸缩方法

AtP*: An efficient and scalable method for localizing LLM behaviour to components

János Kramár, Tom Lieberum, Rohin Shah, Neel Nanda

TL;DRActivation Patching 是一种直接计算行为因果归因于模型组件的方法，但全面应用需要成本与模型组件数量线性增加，对于 SoTA 大型语言模型来说成本过高。我们调查了 Attribution Patching（AtP），这是一种基于梯度的快速近似方法，发现了两类 AtP 失败模式，会导致显著的假阴性。我们提出了 AtP * 的变体，通过两个改进解决了这些失败模式同时保持可扩展性。我们首次系统性地研究了 AtP 和其他更快的激活修补方法，并证明 AtP 明显优于所有其他研究方法，而 AtP * 提供了进一步显著的改进。最后，我们提供了一种限制 AtP * 估计的假阴性概率的方法。

Abstract

activation patching is a method of directly computing causal attributions of behavior to model components. However, applying it exhaustively requires a sweep with cost scaling linearly in the number of model components, which can be prohibitively expensive for SoTA →

activation patching attribution patching large language models failure modes false negatives

发现论文，激发创造

归因修补优于自动电路发现

通过应用基于归因修补的简单方法来剔除神经网络中最不重要的边缘，我们的研究比现有方法在电路恢复方面具有更高的 AUC。

Oct, 2023

语言模型激活修复的最佳实践：度量与方法

我们系统地研究了激活补丁技术的方法学细节，包括评估指标和数据污染方法，并发现这些超参数的变化可能导致差异化的解释结果。根据经验观察，我们提出了为什么应该优先选择某些指标或方法的概念性论证，并最终对激活补丁技术提供了最佳实践建议。

Sep, 2023

路径修补定位模型行为

本文介绍了一种名为 “路径修补” 的技术，通过该技术可以对神经网络的本地化行为进行量化测试，从而分析网络机制和可能的故障模式，并通过对 GPT-2 的行为进行表征来优化了归纳头的解释，并开源了一个运行类似实验的框架。

Apr, 2023

如何使用和解读激活修补

激活修补是一种流行的机械解释技术，但在应用和解释结果方面存在许多细微之处。我们根据使用这种技术的经验提供了建议和最佳实践的摘要，包括不同的激活修补应用方式的概述及结果解释的讨论。我们着重介绍激活修补实验对电路的提供的证据以及度量选择及相关陷阱。

Apr, 2024

大规模语言模型的全面高效后编程安全对齐

我们提出了一种后安全对齐（PSA）方法，以解决目前大型语言模型（LLMs）中脆弱和不平衡的安全机制问题，并且能够提升安全性、减轻过度安全性，并在保持实用性的同时无缝集成到目标 LLM 中。实验表明，这种方法不仅实现了比基准方法更全面和高效的后安全对齐，还增强了骨干模型的实用性，在当前对齐的 LLMs 中优化了有用性和无害性之间的平衡，同时在持续 PSA 场景下展示了其优越性。

May, 2024

基于失败测试用例的相似度预测补丁的正确性

利用未监督学习的深度表示学习模型来预测 APR 中补丁的正确性，通过历史类似测试用例的补丁和失败测试用例的相似度指标来评估生成补丁的正确性，并与现有方法进行比较。

Jul, 2021

ATP：通过注意力机制实现对顶级主键的快速低延迟存储

提出了一种具有线性复杂度的新型注意力机制 ATP，通过观察输入序列通常具有低秩结构，将输入转换为正交空间，并仅在前几个主要基准上计算注意力。ATP 能够捕捉输入序列中的语义关系，并将注意力复杂度从二次降低到线性，从而在速度上比之前的工作获得更多加速。

Mar, 2024

面向位置感知对抗补丁的分布式建模

本文提出了一种新的对抗补丁方法，即 Distribution-Optimized Adversarial Patch (DOPatch)，通过优化多模态对抗位置分布而不是个体位置来进行攻击，有效性和效率得到了验证。

Jun, 2023

A2: 高效自动化攻击者用于提升对抗训练

本文提出了一个名为 A2 的高效自动攻击者，它能够在训练过程中实时生成最优扰动，并证实其强制扰动能够有效提高不同数据集上各种对抗训练方法的鲁棒性。

Oct, 2022

字典学习改善机械解释性中无补丁电路发现：以奥赛罗 - GPT 为例

基于稀疏字典学习和机制解释性，提出了一种电路发现框架，用于从模型激活中提取更多人可理解的特征。该框架能够识别连接大量字典特征的电路，并在渐近复杂度方面具有更高的效率。在合成任务 Othello 的小型 Transformer 中，发现了许多人可理解的细粒度电路。

Feb, 2024