抑制复制：全面理解注意力头

Oct, 2023

Copy Suppression: Comprehensively Understanding an Attention Head

Callum McDougall, Arthur Conmy, Cody Rushing, Thomas McGrath, Neel Nanda

TL;DRGPT-2 Small 模型的 Attention Head 10.7 (L10H7) 通过抑制复制行为实现模型校准和自修复。

Abstract

We present a single attention head in GPT-2 Small that has one main role across the entire training distribution. If components in earlier layers predict a certain token, and this token appears earlier in the context, the head suppresses it: we call this →

attention head copy suppression negative heads model calibration self-repair

发现论文，激发创造

分析多头自注意力：专门的头部承担重任，其余部分可被剪枝

研究了 Transformer 模型中的多头自注意力和编码器在神经机器翻译中的贡献和作用，提出了一种基于随机门和可微松弛 L0 正则化的新型剪枝方法，在不严重影响性能的情况下，成功删除了大部分注意头。

May, 2019

语言模型自我修复的探索

这篇论文研究对窄分布进行解释性研究，发现了自我修复现象，该现象表明，如果在大型语言模型中去除组件，后续的组件会改变其行为以进行补偿。我们的研究基于过去的文献，证明了当去除全训练分布上的单个注意力头时，自我修复存在于各种模型家族和规模上。我们进一步展示了全训练分布上的自我修复是不完美的，因为头部的原始直接效应没有完全恢复，并且是不稳定的，因为自我修复的程度在不同的提示之间变化显著（有时会超出原始效应的矫正）。我们强调了两种不同的机制对自我修复的贡献，包括最终的 LayerNorm 比例因子的变化（可修复达到 30% 的直接效应）和实施反擦除的稀疏神经元集合。此外，我们还讨论了这些结果对解释性从业者的影响，并在结束时对为什么这些模型中会出现自我修复的谜团进行了更具推测性的讨论，强调了语言模型中迭代推理假设的证据。

Feb, 2024

挑选未充分利用的头部：关注网络修剪对于融合对话指代信息的头部选择的视角

通过网络修剪的角度，研究了一种特征注入的注意头选择和操作策略，并在对话摘要中进行了案例研究，结果表明通过注意头操作注入指代关系信息可以提高对话摘要的性能。

Dec, 2023

限制记忆能力的语言模型捕捉人类句子处理中的干扰

该研究通过开发一个具有单个自注意头的循环神经语言模型，捕捉到了人类实验中观察到的语义和句法干扰效应。

Oct, 2023

斩首结束冲突：解析和缓解语言模型中的知识冲突机制

通过信息流的角度解释知识冲突的机制，并在关键点进行精确干预，以解决语言模型中的知识冲突问题。通过剪枝冲突的注意力头部，我们提出了一种称为 PH3 的新方法，它可以高效地减轻知识冲突，并能改善语言模型在开放领域 QA 任务上的性能。

Feb, 2024

十六个头真的比一个好吗？

本研究表明，即使使用多重头部训练模型，实质上也可以在测试时间删除大量的注意力头而不会对性能产生显著影响，可以通过剪枝算法进一步降低模型的复杂度、提高速度和内存效率，并提供关于哪些模型部分更依赖于多头注意力的初步证据，并发现训练动态在多头注意力带来的收益中扮演着重要角色。

May, 2019

使用 Transformer 引导自监督学习的注意力机制

该文提出了一种利用双向 Transformer 实现高效自监督学习的简单而有效的技术，该方法利用辅助损失函数引导注意力头符合自注意力特征，并可以适用于不同的预训练目标，实验证明该方法相对于基线模型更快收敛同时在下游任务中性能更好，在低资源环境中取得了业界领先结果。

Oct, 2020

解读 Transformers 中的上下文查找：调查 Attention-MLP 交互

通过研究注意力头与特定 “下一个标记” 神经元在预测特定标记的多层感知机中的相互作用，我们可以揭示激活特定下一个标记神经元的注意机制。具体而言，我们关注在较早层次中不同提示下始终激活相同下一个标记神经元的注意力头。我们的方法结合了神经解释和探测孤立组件，以阐明注意力如何在语境依赖的专门处理中发挥作用。

Feb, 2024

关注实体以获得更好的文本理解

在自然语言处理中，通过将共指信息作为辅助监督注入到目前现有的预训练模型中，能够提升模型在需要进行复杂和长距离推理的任务中的表现，从而超过目前最大的 GPT-2 模型，同时仅含有一小部分的参数。

Nov, 2019

抽象化摘要中的多头注意力理解

本文研究了适用于抽象总结的多头自注意机制的可解释性，介绍了三个度量衡来评估关注头的重要性，发现相对位置的头对总结表现至关重要，不建议弃掉，而强制稀疏性似乎不能显着提高可解释性。

Nov, 2019