Transformer 中多头注意力的记忆容量
我们在研究中心比较了 transformer 中 softmax attention 在上下文学习和线性回归任务中的性能,理论分析表明具有较大嵌入维度的多头注意力优于单头注意力,当上下文示例的数量增加时,使用单头 / 多头注意力的预测损失为 O (1/D),而多头注意力的乘法常数较小。此外,在最简单的数据分布设置之外,我们还考虑了更多的场景,如噪声标签、本地示例、相关特征和先验知识,观察到一般情况下多头注意力优于单头注意力,我们的结果验证了 transformer 架构中多头注意力设计的有效性。
Jan, 2024
本研究表明,即使使用多重头部训练模型,实质上也可以在测试时间删除大量的注意力头而不会对性能产生显著影响,可以通过剪枝算法进一步降低模型的复杂度、提高速度和内存效率,并提供关于哪些模型部分更依赖于多头注意力的初步证据,并发现训练动态在多头注意力带来的收益中扮演着重要角色。
May, 2019
介绍了一种针对大型图像的高效注意力操作 ——Hydra Attention,使用的多头注意力与特征数一样多,与元素数量和特征数量成线性关系,比现有的 self-attention 更快,同时在 ImageNet 数据集上保持了高准确性。
Sep, 2022
我们引入了三种新的注意力机制,比标准的多头注意力在效率和学习能力方面表现更好,从而提高了 Transformer 模型的性能和广泛部署能力。我们的第一个贡献是优化的注意力,它在头部数量、参数数量和矩阵乘法数量上与标准注意力相近,但参数数量少了 3/4,每个头部少了一次矩阵乘法。接下来,我们介绍了高效的注意力,它在参数数量上只有标准注意力的一半,每个头部少了两次矩阵乘法,并且速度是标准注意力的两倍。最后,我们介绍了超级注意力,在视觉和自然语言处理任务中显著超过标准注意力,同时具有更少的参数和矩阵乘法。除了提供严谨的数学比较,我们还在 MNIST、CIFAR100、IMDB 电影评论和 Amazon 评论数据集上评估了所提出的注意力机制。
Mar, 2024
本研究通过提出一种自我注意力机制,可以学习其最优的注意范围,从而显着扩展了 Transformer 中使用的最大上下文大小,同时保持对内存占用和计算时间的控制。在字符级语言建模任务中,我们使用最大上下文为 8k 个字符,在 text8 和 enwiki8 上实现了最先进的性能。
May, 2019
通过对内存进行注意操作与通过输入信号筛选交互相对来说不够优化,可以利用 Luna 或 Memory Augmented Transformer 等模型减少注意计算复杂度或在块处理中传播信息来显著提高性能。
Mar, 2024
本文提出了一种多查询关注机制,使用这种机制可以降低增量解码的内存需求,并通过实验验证了这种关注机制可以使解码速度更快,同时只会导致较小的质量损失。
Nov, 2019
该论文提出了一种协作式多头注意力层,该方法通过共享 key/query 投影来降低注意力层中参数的数量,可以用于任何变压器体系结构,并对语言理解、机器翻译和计算机视觉方面进行了验证和实验,并可将预训练的多头注意力层重新参数化为协同注意力层,使 key 和 query 投影的大小减小了 4 倍,而准确性和速度保持不变。
Jun, 2020