Heads 假设：一种统一的统计方法，用于理解 BERT 中的多头注意力

AAAIJan, 2021

Heads 假设：一种统一的统计方法，用于理解 BERT 中的多头注意力

The heads hypothesis: A unifying statistical approach towards understanding multi-headed attention in BERT

Madhura Pande, Aakriti Budhraja, Preksha Nema, Pratyush Kumar, Mitesh M. Khapra

TL;DR提出一种新的方法，通过假设检验来形式化简单而有效的分数，从而分类定位 transformer-based model 的 attention heads 中的不同角色，可以更准确地回答一些有关 BERT 模型的问题，如多种功能角色在同一 attention head 中的共存，attention heads 在不同层之间的分布以及特定 NLP 任务对这些功能角色的影响。

Abstract

multi-headed attention heads are a mainstay in transformer-based models. Different methods have been proposed to classify the role of each attention head based on the relations between tokens which have high pair-wise attention. These roles include syntactic (tokens with some syntactic

multi-headed attention attention heads bert syntactic roles nlp tasks

发现论文，激发创造

十六个头真的比一个好吗？

本研究表明，即使使用多重头部训练模型，实质上也可以在测试时间删除大量的注意力头而不会对性能产生显著影响，可以通过剪枝算法进一步降低模型的复杂度、提高速度和内存效率，并提供关于哪些模型部分更依赖于多头注意力的初步证据，并发现训练动态在多头注意力带来的收益中扮演着重要角色。

May, 2019

分析多头自注意力：专门的头部承担重任，其余部分可被剪枝

研究了 Transformer 模型中的多头自注意力和编码器在神经机器翻译中的贡献和作用，提出了一种基于随机门和可微松弛 L0 正则化的新型剪枝方法，在不严重影响性能的情况下，成功删除了大部分注意头。

May, 2019

BERT 模型看什么？BERT Attention 机制分析

本文通过分析 BERT 的注意力机制及其输出结果，提出了新的方法并应用于其内部结构的探究，证明 Bert 的 attention heads 明显与语言的语法和指代有关，其中某些 attention heads 可以高精度地表示动词的直接宾语、名词的限定词和介词的宾语。

Jun, 2019

BERT 的视野有多远：基于距离的聚类和注意力分析

通过无监督聚类，我们明确将注意力热图聚类为显著不同的模式，并进一步通过分析研究了它们的对应功能，此外，我们提出的特征可以用于解释和校准 Transformer 模型中的不同注意头。

Nov, 2020

Transformer 注意力头在多语言和跨语言任务中的贡献

该论文研究了注意力头在 Transformer 模型中的相对重要性，以帮助其在跨语言和多语言任务中的可解释性。通过大量实验，证明了在多语言 Transformer 模型中修剪注意力头可以在跨语言和多语言任务中提高模型性能，并且可以使用梯度对注意头进行排序和识别。

Aug, 2021

多任务学习下多头注意力中的功能专业化解释与利用

通过对 Transformer 模型的多头注意力机制进行解释和多任务训练，提出功能专门化的方法来改善模型性能。实验证明多头注意力在多任务训练后会发展功能专门化现象，并且这种训练策略能够提高多任务学习和迁移学习的性能，而不增加任何参数。

Oct, 2023

识别语义引导头以理解上下文学习

通过对注意力头的运行进行详细分析，我们发现特定的注意力头在上下文学习的能力中具有重要的语义联系，从而推进了我们对 transformers 中注意力头运行的复杂操作和大语言模型上下文学习的新洞察。

Feb, 2024

抽象化摘要中的多头注意力理解

本文研究了适用于抽象总结的多头自注意机制的可解释性，介绍了三个度量衡来评估关注头的重要性，发现相对位置的头对总结表现至关重要，不建议弃掉，而强制稀疏性似乎不能显着提高可解释性。

Nov, 2019

多头注意力的优化和泛化

使用多头自注意力机制，经过一定的初始条件和训练，可以优化和推广 Transformer 模型的核心机制，获得收敛和泛化保证。

Oct, 2023

多头注意力：合作而非串联

该论文提出了一种协作式多头注意力层，该方法通过共享 key/query 投影来降低注意力层中参数的数量，可以用于任何变压器体系结构，并对语言理解、机器翻译和计算机视觉方面进行了验证和实验，并可将预训练的多头注意力层重新参数化为协同注意力层，使 key 和 query 投影的大小减小了 4 倍，而准确性和速度保持不变。

Jun, 2020