自注意力不需要 $O (n^2)$ 的内存

Dec, 2021

Self-attention Does Not Need $O(n^2)$ Memory

Markus N. Rabe, Charles Staats

TL;DR提出一种对 attention 算法的简化，使其在处理长序列时更省内存，并对其进行扩展，以此降低 self-attention 的内存消耗，同时保证数值稳定性和可微分性，通过测试结果表明，这样可以让 self-attention 在推断和不同阶段的内存开销分别降低 59 倍和 32 倍。

Abstract

We present a very simple algorithm for attention that requires $O(1)$ memory with respect to sequence length and an extension to self-attention that requires $O(\log n)$ memory. This is in contrast with the frequ

attention self-attention memory efficiency accelerators differentiation

发现论文，激发创造

更快的邻域注意力机制：在线程块级别降低自注意力的 O (n^2) 复杂度

邻域自注意力通过限制每个标记的注意力范围为其最近的邻居来降低自注意力的成本。这种限制通过窗口大小和膨胀因子参数化，绘制了在线性投影和自注意力之间的一系列可能的注意力模式。我们将邻域注意力表示为分批 GEMM 问题，实现了 1-D 和 2-D 邻域注意力，并且与现有的朴素内核相比，平均提供了 895% 和 272％的全精度延迟改进，我们观察到我们的融合内核成功地规避了未融合实现中不可避免的低效率。

Mar, 2024

Linformer: 线性复杂度的自注意力

本文提出了一种新的自注意力机制 ——Linformer，该机制通过近似自注意力矩阵，将自注意力机制的时间和空间复杂度从 O (n^2) 降低为 O (n)，从而显著提高了 Transformer 模型的内存和时间效率。

Jun, 2020

高效注意力：线性复杂度的注意力

本文提出了一种新的有效注意机制，其在计算代价和内存使用方面远优于点积注意力，这种资源效率使得它能够更广泛和灵活地集成到网络中，提高了观察精度，可以用于物体检测、实例分割和立体深度估计等领域。

Dec, 2018

快速多极注意力：一种长序列的分而治之注意机制

Transformer-based models have achieved state-of-the-art performance, but the quadratic complexity of self-attention limits their applicability to long sequences; Fast Multipole Attention addresses this issue by reducing time and memory complexity, while maintaining a global receptive field with a hierarchical approach.

Oct, 2023

注意力的 I/O 复杂性：闪快注意力有多优化？

FlashAttention 算法解决了自我注意力在 Transformer 架构中的 I/O 复杂性问题，并且建立了通信复杂性与 I/O 复杂性之间的联系。

Feb, 2024

大规模序列中通过稀疏闪存注意力加速因果注意力

我们扩展了 FlashAttention 以容纳一大类稀疏性注意力模式，其中包括关键 / 查询删除和基于哈希的注意力。即使具有相对较低的稀疏度，我们的方法在序列长度增加时可见地改进 FlashAttention 的性能。不牺牲困惑度的情况下，我们将 transformer 语言模型的训练速度分别提高了 2.0 倍和 3.3 倍，对于长度为 8k 和 16k 的序列。

Jun, 2023

利用固定大小的记忆表示进行高效注意力

本研究提出一种新的基于固定大小内存表示的注意力机制，能在不降低模型性能的情况下显著提高模型的实时性能，并能学习到有效的对齐方式。

Jul, 2017

张量注意力训练：高阶 Transformer 的可证明高效学习

我们证明了张量注意力训练的反向梯度可以以几乎线性的 $n^{1+o (1)}$ 时间计算，同时提供了梯度的闭式解，并通过多项式逼近和张量代数技巧提出了一种快速计算方法。我们的理论结果证实了高阶 Transformer 训练的可行性，并可能促进张量注意力架构的实际应用。

May, 2024

亚线性内存：如何使 Performers SLiM

在深度学习方面，使用 Transformer 架构的计算成本很高，使用近期提出的各种线性自我关注机制来解决，观察到 Performers 具有极大的计算灵活性，并且可以在训练期间仅占用 O（1）的内存，为去中心化和民主化的深度学习做出贡献。

Dec, 2020

线性对数正态注意力与无偏集中度

通过分析自注意力机制的注意力矩阵分布和其专注能力，并引入一种新的自注意力机制（线性对数正态注意力），我们试图研究其与原始自注意力的分布和专注行为的模拟度量，实验结果在流行的自然语言基准测试中表明我们提出的线性对数正态注意力优于其他线性注意力替代方案，为提高 Transformer 模型的可扩展性提供了有前景的途径。

Nov, 2023