张量注意力训练：高阶 Transformer 的可证明高效学习

May, 2024

张量注意力训练：高阶 Transformer 的可证明高效学习

Tensor Attention Training: Provably Efficient Learning of Higher-order Transformers

Jiuxiang Gu, Yingyu Liang, Zhenmei Shi, Zhao Song, Yufa Zhou

TL;DR我们证明了张量注意力训练的反向梯度可以以几乎线性的 $n^{1+o (1)}$ 时间计算，同时提供了梯度的闭式解，并通过多项式逼近和张量代数技巧提出了一种快速计算方法。我们的理论结果证实了高阶 Transformer 训练的可行性，并可能促进张量注意力架构的实际应用。

Abstract

tensor attention, a multi-view attention that is able to capture high-order correlations among multiple modalities, can overcome the representational limitations of classical matrix attention. However, the $\Omeg

tensor attention multi-view attention representational limitations time complexity transformer training

发现论文，激发创造

如何捕捉高阶相关性？将矩阵 Softmax 注意力推广为克罗内克计算

在该研究中，我们研究了一种可以捕捉三元相关性的注意力机制的泛化形式，该泛化形式能够解决传统 transformers 无法解决的问题。我们展示了在有界输入情况下的近似计算，以及对于更高阶张量和相关性的拓展。同时，我们还发现输入的边界与张量的阶数之间存在自然的权衡关系，能够实现更高效的注意力计算。

Oct, 2023

Linformer: 线性复杂度的自注意力

本文提出了一种新的自注意力机制 ——Linformer，该机制通过近似自注意力矩阵，将自注意力机制的时间和空间复杂度从 O (n^2) 降低为 O (n)，从而显著提高了 Transformer 模型的内存和时间效率。

Jun, 2020

Conv-Basis：Transformer 中高效注意力推理与梯度计算的新范式

大型语言模型对世界产生了深远影响，其中自注意机制是 transformer 在大型语言模型中取得成功的关键。然而，长度为 n 的输入序列带来的二次计算复杂度 O (n^2) 一直是对提高和扩展更长上下文的一个难以克服的障碍。本文利用注意力矩阵的卷积结构开发了一种有效的注意力计算近似方法，提出了一个类似秩基系统的卷积基系统，表明任意下三角（注意力）矩阵总是可以在该基系统中分解为 k 个结构化卷积矩阵的和。我们然后设计了一个算法，快速将注意力矩阵分解为 k 个卷积矩阵。借助快速傅里叶变换（FFT），可以在 O (knd log n) 的时间内计算注意力推理，其中 d 是隐藏维度。实际上，我们有 d ≪ n，即 d = 3,072 和 n = 1,000,000 用于 Gemma。因此，当 kd = n^{o (1)} 时，我们的算法实现了几乎线性时间，即 n^{1+o (1)}。此外，注意力的训练前向和反向梯度也可以在 n^{1+o (1)} 内计算。我们的方法可以避免明确计算 n×n 的注意力矩阵，这可能会大大减轻二次计算复杂度。此外，我们的算法适用于任何输入矩阵。本研究提供了一种加速 transformer 注意力计算的新范式，以实现其对更长上下文的应用。

May, 2024

提高注意力的必要性

我们引入了三种新的注意力机制，比标准的多头注意力在效率和学习能力方面表现更好，从而提高了 Transformer 模型的性能和广泛部署能力。我们的第一个贡献是优化的注意力，它在头部数量、参数数量和矩阵乘法数量上与标准注意力相近，但参数数量少了 3/4，每个头部少了一次矩阵乘法。接下来，我们介绍了高效的注意力，它在参数数量上只有标准注意力的一半，每个头部少了两次矩阵乘法，并且速度是标准注意力的两倍。最后，我们介绍了超级注意力，在视觉和自然语言处理任务中显著超过标准注意力，同时具有更少的参数和矩阵乘法。除了提供严谨的数学比较，我们还在 MNIST、CIFAR100、IMDB 电影评论和 Amazon 评论数据集上评估了所提出的注意力机制。

Mar, 2024

H-Transformer-1D: 序列快速一维分层注意力

本研究提出了一种高效的基于矩阵结构的层次注意力方法，并证明了这种方法在自然语言和视觉任务中捕捉层次结构的归纳偏差是有效的，相比于其他次二次方提议在 Long Range Arena 基准测试上平均提高了 6 个百分点，在 One-Billion Word 数据集上也取得了新的 SOTA 测试困惑度。

Jul, 2021

可训练前馈核线性自注意力近似

本文旨在将可训练的核方法的思想扩展到逼近 Transformer 架构的自注意机制，以实现更快的计算和更高的准确率。

Nov, 2022

可证明学习多头注意力层

从随机示例中学习多头注意力层的算法，给出了该问题的首个非平凡上下界。

Feb, 2024

FAST: 可因子化注意力提升 Transformer 速度

通过引入可分解的关注机制，我们将注意力机制的计算和内存复杂度从 O (N^2) 降低到 O (N)，并保持了注意力矩阵的完整表示，具有稀疏性和全连接关系。经过各种标准设置的测试，结果表明我们的注意力机制具有稳定的性能，并在自我注意力被使用的多种应用领域中具有重要潜力。

Feb, 2024

硬件高效训练的门控线性注意力变换器

通过引入数据依赖的门控机制，我们开发了一种硬件高效的并行形式，使得门控线性注意力（GLA）Transformers 在适度规模的语言建模中表现竞争力，并在训练速度上与基于 CUDA 优化的 FlashAttention-2 相媲美。

Dec, 2023

快速多极注意力：一种长序列的分而治之注意机制

Transformer-based models have achieved state-of-the-art performance, but the quadratic complexity of self-attention limits their applicability to long sequences; Fast Multipole Attention addresses this issue by reducing time and memory complexity, while maintaining a global receptive field with a hierarchical approach.

Oct, 2023