抑制复制:全面理解注意力头
研究了 Transformer 模型中的多头自注意力和编码器在神经机器翻译中的贡献和作用,提出了一种基于随机门和可微松弛 L0 正则化的新型剪枝方法,在不严重影响性能的情况下,成功删除了大部分注意头。
May, 2019
这篇论文研究对窄分布进行解释性研究,发现了自我修复现象,该现象表明,如果在大型语言模型中去除组件,后续的组件会改变其行为以进行补偿。我们的研究基于过去的文献,证明了当去除全训练分布上的单个注意力头时,自我修复存在于各种模型家族和规模上。我们进一步展示了全训练分布上的自我修复是不完美的,因为头部的原始直接效应没有完全恢复,并且是不稳定的,因为自我修复的程度在不同的提示之间变化显著(有时会超出原始效应的矫正)。我们强调了两种不同的机制对自我修复的贡献,包括最终的 LayerNorm 比例因子的变化(可修复达到 30% 的直接效应)和实施反擦除的稀疏神经元集合。此外,我们还讨论了这些结果对解释性从业者的影响,并在结束时对为什么这些模型中会出现自我修复的谜团进行了更具推测性的讨论,强调了语言模型中迭代推理假设的证据。
Feb, 2024
通过网络修剪的角度,研究了一种特征注入的注意头选择和操作策略,并在对话摘要中进行了案例研究,结果表明通过注意头操作注入指代关系信息可以提高对话摘要的性能。
Dec, 2023
通过信息流的角度解释知识冲突的机制,并在关键点进行精确干预,以解决语言模型中的知识冲突问题。通过剪枝冲突的注意力头部,我们提出了一种称为 PH3 的新方法,它可以高效地减轻知识冲突,并能改善语言模型在开放领域 QA 任务上的性能。
Feb, 2024
本研究表明,即使使用多重头部训练模型,实质上也可以在测试时间删除大量的注意力头而不会对性能产生显著影响,可以通过剪枝算法进一步降低模型的复杂度、提高速度和内存效率,并提供关于哪些模型部分更依赖于多头注意力的初步证据,并发现训练动态在多头注意力带来的收益中扮演着重要角色。
May, 2019
该文提出了一种利用双向 Transformer 实现高效自监督学习的简单而有效的技术,该方法利用辅助损失函数引导注意力头符合自注意力特征,并可以适用于不同的预训练目标,实验证明该方法相对于基线模型更快收敛同时在下游任务中性能更好,在低资源环境中取得了业界领先结果。
Oct, 2020
通过研究注意力头与特定 “下一个标记” 神经元在预测特定标记的多层感知机中的相互作用,我们可以揭示激活特定下一个标记神经元的注意机制。具体而言,我们关注在较早层次中不同提示下始终激活相同下一个标记神经元的注意力头。我们的方法结合了神经解释和探测孤立组件,以阐明注意力如何在语境依赖的专门处理中发挥作用。
Feb, 2024
在自然语言处理中,通过将共指信息作为辅助监督注入到目前现有的预训练模型中,能够提升模型在需要进行复杂和长距离推理的任务中的表现,从而超过目前最大的 GPT-2 模型,同时仅含有一小部分的参数。
Nov, 2019
本文研究了适用于抽象总结的多头自注意机制的可解释性,介绍了三个度量衡来评估关注头的重要性,发现相对位置的头对总结表现至关重要,不建议弃掉,而强制稀疏性似乎不能显着提高可解释性。
Nov, 2019