对抗多头：利用注意力头嵌入实现高效参数的多头注意力

EMNLPOct, 2023

对抗多头：利用注意力头嵌入实现高效参数的多头注意力

Pit One Against Many: Leveraging Attention-head Embeddings for Parameter-efficient Multi-head Attention

Huiyin Xue, Nikolaos Aletras

TL;DR我们提出了一种使用单个共享投影矩阵和多个头嵌入（MHE）的替代模块，实验证明我们的 MHE 关注机制在多个下游任务上显著提高了内存效率，并且相对于 MHA 仅需要可忽略的附加参数。

Abstract

scaling pre-trained language models has resulted in large performance gains in various natural language processing tasks but comes with a large cost in memory requirements. Inspired by the position embeddings in

scaling pre-trained language models memory requirements multi-head attention head embeddings memory efficient

发现论文，激发创造

RCMHA: 相对卷积多头注意力用于自然语言建模

在语言建模中，通过利用相对位置编码与深度卷积层架构相结合的改进 MHA 模块，提高准确性并减少内存使用，该模块在实证实验中展现了超越其他注意力模块的优势。

Aug, 2023

DHA：通过自适应头融合从 Transformer 检查点学习分离头注意力

通过分析注意力冗余，设计了一种解耦式头部注意力机制（Decoupled-Head Attention，DHA），达到性能和效率之间的更好平衡，通过逐步线性融合类似头部参数来将 Multi-Head Attention（MHA）模型转换为 DHA 模型，实现了预训练预算的极大节约和高性能的平衡。

Jun, 2024

多头注意力：合作而非串联

该论文提出了一种协作式多头注意力层，该方法通过共享 key/query 投影来降低注意力层中参数的数量，可以用于任何变压器体系结构，并对语言理解、机器翻译和计算机视觉方面进行了验证和实验，并可将预训练的多头注意力层重新参数化为协同注意力层，使 key 和 query 投影的大小减小了 4 倍，而准确性和速度保持不变。

Jun, 2020

混合 $h-1$ 个头比 $h$ 个头更好

通过重新分配注意力头部，我们提出了一种混合专家模型（MAE），其利用分块协调下降算法对其进行训练，并在机器翻译任务和语言建模任务中表现出优异的性能。

May, 2020

多头注意力模型中的低秩瓶颈

本文提出了一种多头注意力机制的改进方法，将注意头的大小设置为输入序列长度，从而使注意机制的表达能力更强，能够在较小的嵌入维度下训练模型，并提高模型的性能。

Feb, 2020

多头注意力的支柱寻找

本文提出了使用最小冗余特征选择的思想，通过聚焦于最具代表性和独特性的特征，采用自监督群组约束进行训练的 Grouped Head Attention 模型，以及通过投票去除冗余头部来实现更有效和高效的多头自注意力模型。实验结果表明，该方法在三个基准任务上显著提高性能的同时，压缩参数。

May, 2023

十六个头真的比一个好吗？

本研究表明，即使使用多重头部训练模型，实质上也可以在测试时间删除大量的注意力头而不会对性能产生显著影响，可以通过剪枝算法进一步降低模型的复杂度、提高速度和内存效率，并提供关于哪些模型部分更依赖于多头注意力的初步证据，并发现训练动态在多头注意力带来的收益中扮演着重要角色。

May, 2019

提高注意力的必要性

我们引入了三种新的注意力机制，比标准的多头注意力在效率和学习能力方面表现更好，从而提高了 Transformer 模型的性能和广泛部署能力。我们的第一个贡献是优化的注意力，它在头部数量、参数数量和矩阵乘法数量上与标准注意力相近，但参数数量少了 3/4，每个头部少了一次矩阵乘法。接下来，我们介绍了高效的注意力，它在参数数量上只有标准注意力的一半，每个头部少了两次矩阵乘法，并且速度是标准注意力的两倍。最后，我们介绍了超级注意力，在视觉和自然语言处理任务中显著超过标准注意力，同时具有更少的参数和矩阵乘法。除了提供严谨的数学比较，我们还在 MNIST、CIFAR100、IMDB 电影评论和 Amazon 评论数据集上评估了所提出的注意力机制。

Mar, 2024

Transformer 中多头注意力的记忆容量

本文探讨了 Transformers 中的 multi-head attention 的记忆能力，并通过理论分析和实验验证证明：在输入数据恒定的情况下，具有 H 个 attention 头部的层具有记忆容量为 O (Hn)，在图像分类任务中得出结论。

Jun, 2023

基于注意力头的注意力混合模型：逐标记选择注意力头

本文提出了一种新的神经网络结构 MoA （即 Mixture of Attention Heads），它结合了 Mixture-of-Experts 和 Multi-head Attention 机制，通过动态地选择 Attention Heads 实现了条件计算，有效提高了多个自然语言处理任务的性能，并提供了一种新的模型可解释性视角。

Oct, 2022