Transformer 中多头注意力的记忆容量

Jun, 2023

Transformer 中多头注意力的记忆容量

Memorization Capacity of Multi-Head Attention in Transformers

Sadegh Mahdavi, Renjie Liao, Christos Thrampoulidis

TL;DR本文探讨了 Transformers 中的 multi-head attention 的记忆能力，并通过理论分析和实验验证证明：在输入数据恒定的情况下，具有 H 个 attention 头部的层具有记忆容量为 O (Hn)，在图像分类任务中得出结论。

Abstract

In this paper, we investigate the memorization capabilities of multi-head attention in transformers, motivated by the central role attention plays in these models. Under a mild →

multi-head attention transformers memorization capabilities linear independence assumption image classification

发现论文，激发创造

多头注意力在上下文线性回归中的优势

我们在研究中心比较了 transformer 中 softmax attention 在上下文学习和线性回归任务中的性能，理论分析表明具有较大嵌入维度的多头注意力优于单头注意力，当上下文示例的数量增加时，使用单头 / 多头注意力的预测损失为 O (1/D)，而多头注意力的乘法常数较小。此外，在最简单的数据分布设置之外，我们还考虑了更多的场景，如噪声标签、本地示例、相关特征和先验知识，观察到一般情况下多头注意力优于单头注意力，我们的结果验证了 transformer 架构中多头注意力设计的有效性。

Jan, 2024

多头注意力的优化和泛化

使用多头自注意力机制，经过一定的初始条件和训练，可以优化和推广 Transformer 模型的核心机制，获得收敛和泛化保证。

Oct, 2023

十六个头真的比一个好吗？

本研究表明，即使使用多重头部训练模型，实质上也可以在测试时间删除大量的注意力头而不会对性能产生显著影响，可以通过剪枝算法进一步降低模型的复杂度、提高速度和内存效率，并提供关于哪些模型部分更依赖于多头注意力的初步证据，并发现训练动态在多头注意力带来的收益中扮演着重要角色。

May, 2019

Hydra Attention: 多头注意力的高效实现

介绍了一种针对大型图像的高效注意力操作 ——Hydra Attention，使用的多头注意力与特征数一样多，与元素数量和特征数量成线性关系，比现有的 self-attention 更快，同时在 ImageNet 数据集上保持了高准确性。

Sep, 2022

提高注意力的必要性

我们引入了三种新的注意力机制，比标准的多头注意力在效率和学习能力方面表现更好，从而提高了 Transformer 模型的性能和广泛部署能力。我们的第一个贡献是优化的注意力，它在头部数量、参数数量和矩阵乘法数量上与标准注意力相近，但参数数量少了 3/4，每个头部少了一次矩阵乘法。接下来，我们介绍了高效的注意力，它在参数数量上只有标准注意力的一半，每个头部少了两次矩阵乘法，并且速度是标准注意力的两倍。最后，我们介绍了超级注意力，在视觉和自然语言处理任务中显著超过标准注意力，同时具有更少的参数和矩阵乘法。除了提供严谨的数学比较，我们还在 MNIST、CIFAR100、IMDB 电影评论和 Amazon 评论数据集上评估了所提出的注意力机制。

Mar, 2024

Transformer 中的自适应注意力跨度

本研究通过提出一种自我注意力机制，可以学习其最优的注意范围，从而显着扩展了 Transformer 中使用的最大上下文大小，同时保持对内存占用和计算时间的控制。在字符级语言建模任务中，我们使用最大上下文为 8k 个字符，在 text8 和 enwiki8 上实现了最先进的性能。

May, 2019

关于共享内存中注意力因子化的困难

通过对内存进行注意操作与通过输入信号筛选交互相对来说不够优化，可以利用 Luna 或 Memory Augmented Transformer 等模型减少注意计算复杂度或在块处理中传播信息来显著提高性能。

Mar, 2024

快速 Transformer 解码：仅需要一个写头

本文提出了一种多查询关注机制，使用这种机制可以降低增量解码的内存需求，并通过实验验证了这种关注机制可以使解码速度更快，同时只会导致较小的质量损失。

Nov, 2019

多头注意力：合作而非串联

该论文提出了一种协作式多头注意力层，该方法通过共享 key/query 投影来降低注意力层中参数的数量，可以用于任何变压器体系结构，并对语言理解、机器翻译和计算机视觉方面进行了验证和实验，并可将预训练的多头注意力层重新参数化为协同注意力层，使 key 和 query 投影的大小减小了 4 倍，而准确性和速度保持不变。

Jun, 2020

可证明学习多头注意力层

从随机示例中学习多头注意力层的算法，给出了该问题的首个非平凡上下界。

Feb, 2024