多头注意力的优化和泛化

ICMLOct, 2023

On the Optimization and Generalization of Multi-head Attention

Puneesh Deora, Rouzbeh Ghaderi, Hossein Taheri, Christos Thrampoulidis

TL;DR使用多头自注意力机制，经过一定的初始条件和训练，可以优化和推广 Transformer 模型的核心机制，获得收敛和泛化保证。

Abstract

The training and generalization dynamics of the transformer's core mechanism, namely the attention mechanism, remain under-explored. Besides, existing analyses primarily focus on single-head attention. Inspired b

transformer attention mechanism overparameterization multi-head self-attention model realizability condition

发现论文，激发创造

提高注意力的必要性

我们引入了三种新的注意力机制，比标准的多头注意力在效率和学习能力方面表现更好，从而提高了 Transformer 模型的性能和广泛部署能力。我们的第一个贡献是优化的注意力，它在头部数量、参数数量和矩阵乘法数量上与标准注意力相近，但参数数量少了 3/4，每个头部少了一次矩阵乘法。接下来，我们介绍了高效的注意力，它在参数数量上只有标准注意力的一半，每个头部少了两次矩阵乘法，并且速度是标准注意力的两倍。最后，我们介绍了超级注意力，在视觉和自然语言处理任务中显著超过标准注意力，同时具有更少的参数和矩阵乘法。除了提供严谨的数学比较，我们还在 MNIST、CIFAR100、IMDB 电影评论和 Amazon 评论数据集上评估了所提出的注意力机制。

Mar, 2024

多头注意力：合作而非串联

该论文提出了一种协作式多头注意力层，该方法通过共享 key/query 投影来降低注意力层中参数的数量，可以用于任何变压器体系结构，并对语言理解、机器翻译和计算机视觉方面进行了验证和实验，并可将预训练的多头注意力层重新参数化为协同注意力层，使 key 和 query 投影的大小减小了 4 倍，而准确性和速度保持不变。

Jun, 2020

分析多头自注意力：专门的头部承担重任，其余部分可被剪枝

研究了 Transformer 模型中的多头自注意力和编码器在神经机器翻译中的贡献和作用，提出了一种基于随机门和可微松弛 L0 正则化的新型剪枝方法，在不严重影响性能的情况下，成功删除了大部分注意头。

May, 2019

多任务学习下多头注意力中的功能专业化解释与利用

通过对 Transformer 模型的多头注意力机制进行解释和多任务训练，提出功能专门化的方法来改善模型性能。实验证明多头注意力在多任务训练后会发展功能专门化现象，并且这种训练策略能够提高多任务学习和迁移学习的性能，而不增加任何参数。

Oct, 2023

多头 Softmax 注意力的上下文学习训练动态：出现、收敛和最优性

我们研究了多头 softmax 注意力模型在上下文学习多任务线性回归中的渐变流动动力学。通过适当选择初始化，我们确定了梯度流的全局收敛性。此外，我们证明了梯度流动力学中出现了有趣的 “任务分配” 现象，在这个过程中，每个注意力头专注于解决多任务模型的单个任务。具体而言，我们证明了梯度流动力学可以分为三个阶段 —— 热身阶段，其中损失减少得相对较慢，注意力头逐渐倾向于各自的任务；出现阶段，其中每个头选择一个任务，损失迅速降低；收敛阶段，注意参数收敛到一个极限。此外，我们证明了梯度流在优化上的最佳性，即由梯度流学习到的极限模型与最佳的多头 softmax 注意力模型相当，仅相差一个常数因子。我们的分析还明确了单头和多头注意力模型在 ICL 的预测准确性方面的严格区别。我们收敛分析的关键技术是将参数空间中的梯度流动力学映射到谱域中的一组常微分方程，其中注意力权重的半奇特征值的相对大小确定了任务分配。据我们所知，我们的工作为多头 softmax 注意力模型提供了第一个收敛结果。

Feb, 2024

基于 Conformer 的自注意力头多样性分析

本文研究了多头注意力机制在端到端自动语音识别系统中的应用，通过分析多个注意头之间的差异并探究不同的训练方法来提高多头之间的多样性，得出使用促进多头注意头多样性的辅助损失函数更有效，并在 Librispeech 数据集上实现了高达 6% 的相对语音识别准确率提升。

Sep, 2022

多头注意力在上下文线性回归中的优势

我们在研究中心比较了 transformer 中 softmax attention 在上下文学习和线性回归任务中的性能，理论分析表明具有较大嵌入维度的多头注意力优于单头注意力，当上下文示例的数量增加时，使用单头 / 多头注意力的预测损失为 O (1/D)，而多头注意力的乘法常数较小。此外，在最简单的数据分布设置之外，我们还考虑了更多的场景，如噪声标签、本地示例、相关特征和先验知识，观察到一般情况下多头注意力优于单头注意力，我们的结果验证了 transformer 架构中多头注意力设计的有效性。

Jan, 2024

十六个头真的比一个好吗？

本研究表明，即使使用多重头部训练模型，实质上也可以在测试时间删除大量的注意力头而不会对性能产生显著影响，可以通过剪枝算法进一步降低模型的复杂度、提高速度和内存效率，并提供关于哪些模型部分更依赖于多头注意力的初步证据，并发现训练动态在多头注意力带来的收益中扮演着重要角色。

May, 2019

超网络中的注意力

使用超网络将多头注意力重新定义为低维潜在代码来加强 Transformer 的组合泛化能力，在抽象推理任务上展示了模型规模和数据扩展如何实现组合泛化并生成功能结构化的潜在代码。

Jun, 2024

Transformer 注意力头在多语言和跨语言任务中的贡献

该论文研究了注意力头在 Transformer 模型中的相对重要性，以帮助其在跨语言和多语言任务中的可解释性。通过大量实验，证明了在多语言 Transformer 模型中修剪注意力头可以在跨语言和多语言任务中提高模型性能，并且可以使用梯度对注意头进行排序和识别。

Aug, 2021