Conv-Basis：Transformer 中高效注意力推理与梯度计算的新范式

May, 2024

Conv-Basis：Transformer 中高效注意力推理与梯度计算的新范式

Conv-Basis: A New Paradigm for Efficient Attention Inference and Gradient Computation in Transformers

Jiuxiang Gu, Yingyu Liang, Heshan Liu, Zhenmei Shi, Zhao Song...

TL;DR大型语言模型对世界产生了深远影响，其中自注意机制是 transformer 在大型语言模型中取得成功的关键。然而，长度为 n 的输入序列带来的二次计算复杂度 O (n^2) 一直是对提高和扩展更长上下文的一个难以克服的障碍。本文利用注意力矩阵的卷积结构开发了一种有效的注意力计算近似方法，提出了一个类似秩基系统的卷积基系统，表明任意下三角（注意力）矩阵总是可以在该基系统中分解为 k 个结构化卷积矩阵的和。我们然后设计了一个算法，快速将注意力矩阵分解为 k 个卷积矩阵。借助快速傅里叶变换（FFT），可以在 O (knd log n) 的时间内计算注意力推理，其中 d 是隐藏维度。实际上，我们有 d ≪ n，即 d = 3,072 和 n = 1,000,000 用于 Gemma。因此，当 kd = n^{o (1)} 时，我们的算法实现了几乎线性时间，即 n^{1+o (1)}。此外，注意力的训练前向和反向梯度也可以在 n^{1+o (1)} 内计算。我们的方法可以避免明确计算 n×n 的注意力矩阵，这可能会大大减轻二次计算复杂度。此外，我们的算法适用于任何输入矩阵。本研究提供了一种加速 transformer 注意力计算的新范式，以实现其对更长上下文的应用。

Abstract

large language models (LLMs) have profoundly changed the world. Their self-attention mechanism is the key to the success of transformers i

large language models self-attention mechanism transformers convolution matrices computational complexity

发现论文，激发创造

张量注意力训练：高阶 Transformer 的可证明高效学习

我们证明了张量注意力训练的反向梯度可以以几乎线性的 $n^{1+o (1)}$ 时间计算，同时提供了梯度的闭式解，并通过多项式逼近和张量代数技巧提出了一种快速计算方法。我们的理论结果证实了高阶 Transformer 训练的可行性，并可能促进张量注意力架构的实际应用。

May, 2024

可训练前馈核线性自注意力近似

本文旨在将可训练的核方法的思想扩展到逼近 Transformer 架构的自注意机制，以实现更快的计算和更高的准确率。

Nov, 2022

Linformer: 线性复杂度的自注意力

本文提出了一种新的自注意力机制 ——Linformer，该机制通过近似自注意力矩阵，将自注意力机制的时间和空间复杂度从 O (n^2) 降低为 O (n)，从而显著提高了 Transformer 模型的内存和时间效率。

Jun, 2020

透过凸优化解释注意力：关于视觉 Transformer 的分析和解读

本文通过凸对偶性的视角分析了自我注意力及其替代方案的基础归纳偏差问题，并为非线性点积自我注意力和替代机制提出了有解释性且可全局最优求解的等效有限维凸问题。通过实验证明，与现有的 MLP 或线性 heuads 相比，自我注意网络的偏差对于 CIFAR-100 分类任务具有吸引力。

May, 2022

聚类注意力实现快速 Transformer

本文提出聚类注意力机制以解决 transformers 模型在处理长序列时，注意力矩阵的求解复杂度很高的问题，同时在计算预定义聚类的质心时，能够处理自由形式的注意力机制。

Jul, 2020

KVT：使用 k-NN 注意力增强视觉 Transformers

本文提出了一种 K-NN 自注意力机制，具有更好的速度和准确率，且适用于各种不同种类的 transformer 结构，从而可以提高图像识别的性能。

May, 2021

鬣狗等级制度：朝着更大的卷积语言模型

本文介绍了 Hyena，一种亚二次的 attention 替代方法，它通过交错的启发式参数化长卷积和数据控制开关的方式进行构建，能够有效地解决 Transformers 中 quadratic cost 的问题，并且在大规模自然语言处理任务中实现了 Transformer 模型一致的精度，同时减少了 20% 的训练计算资源。

Feb, 2023

一种快速优化视角：基于张量和 SVM 技巧重构 LLM 中的单层注意力机制，并在矩阵乘法时间内解决

通过迭代贪婪算法，在近似于 ε 的时间内训练了一个损失函数 L (X,Y)，其中 ε 是迭代次数，该算法关注大型语言模型、注意力回归、单层注意力网络、矩阵乘法等关键主题。

Sep, 2023

基于时间感知的大卷积核卷积

该文章介绍了一种名为 TaLK Convolutions 的自适应卷积操作，通过预测汇总内核的大小而不是使用固定大小的内核矩阵，使序列编码过程的时间复杂度为 O (n)，从而有效地改善了注意力 / 卷积算法等方面的问题，这种方法对于大规模标准机器翻译、抽象摘要和语言建模数据集的效果具有显著的改进。

Feb, 2020

FAST: 可因子化注意力提升 Transformer 速度

通过引入可分解的关注机制，我们将注意力机制的计算和内存复杂度从 O (N^2) 降低到 O (N)，并保持了注意力矩阵的完整表示，具有稀疏性和全连接关系。经过各种标准设置的测试，结果表明我们的注意力机制具有稳定的性能，并在自我注意力被使用的多种应用领域中具有重要潜力。

Feb, 2024