十六个头真的比一个好吗?
研究了 Transformer 模型中的多头自注意力和编码器在神经机器翻译中的贡献和作用,提出了一种基于随机门和可微松弛 L0 正则化的新型剪枝方法,在不严重影响性能的情况下,成功删除了大部分注意头。
May, 2019
该论文提出了一种协作式多头注意力层,该方法通过共享 key/query 投影来降低注意力层中参数的数量,可以用于任何变压器体系结构,并对语言理解、机器翻译和计算机视觉方面进行了验证和实验,并可将预训练的多头注意力层重新参数化为协同注意力层,使 key 和 query 投影的大小减小了 4 倍,而准确性和速度保持不变。
Jun, 2020
提出一种新的方法,通过假设检验来形式化简单而有效的分数,从而分类定位 transformer-based model 的 attention heads 中的不同角色,可以更准确地回答一些有关 BERT 模型的问题,如多种功能角色在同一 attention head 中的共存,attention heads 在不同层之间的分布以及特定 NLP 任务对这些功能角色的影响。
Jan, 2021
本文研究了适用于抽象总结的多头自注意机制的可解释性,介绍了三个度量衡来评估关注头的重要性,发现相对位置的头对总结表现至关重要,不建议弃掉,而强制稀疏性似乎不能显着提高可解释性。
Nov, 2019
通过网络修剪的角度,研究了一种特征注入的注意头选择和操作策略,并在对话摘要中进行了案例研究,结果表明通过注意头操作注入指代关系信息可以提高对话摘要的性能。
Dec, 2023
该论文研究了注意力头在 Transformer 模型中的相对重要性,以帮助其在跨语言和多语言任务中的可解释性。通过大量实验,证明了在多语言 Transformer 模型中修剪注意力头可以在跨语言和多语言任务中提高模型性能,并且可以使用梯度对注意头进行排序和识别。
Aug, 2021
通过重新分配注意力头部,我们提出了一种混合专家模型(MAE),其利用分块协调下降算法对其进行训练,并在机器翻译任务和语言建模任务中表现出优异的性能。
May, 2020
我们引入了三种新的注意力机制,比标准的多头注意力在效率和学习能力方面表现更好,从而提高了 Transformer 模型的性能和广泛部署能力。我们的第一个贡献是优化的注意力,它在头部数量、参数数量和矩阵乘法数量上与标准注意力相近,但参数数量少了 3/4,每个头部少了一次矩阵乘法。接下来,我们介绍了高效的注意力,它在参数数量上只有标准注意力的一半,每个头部少了两次矩阵乘法,并且速度是标准注意力的两倍。最后,我们介绍了超级注意力,在视觉和自然语言处理任务中显著超过标准注意力,同时具有更少的参数和矩阵乘法。除了提供严谨的数学比较,我们还在 MNIST、CIFAR100、IMDB 电影评论和 Amazon 评论数据集上评估了所提出的注意力机制。
Mar, 2024
本文提出了一种可微的子集剪枝技术,通过学习每个头的重要性变量并对未剪枝的头数施加用户指定的硬约束,实现对多头注意力机制的剪枝;实验证明该技术可以实现精确控制稀疏度水平,并在自然语言推理和机器翻译方面的表现不亚于以往技术。
Aug, 2021