自注意力不需要 $O (n^2)$ 的内存
邻域自注意力通过限制每个标记的注意力范围为其最近的邻居来降低自注意力的成本。这种限制通过窗口大小和膨胀因子参数化,绘制了在线性投影和自注意力之间的一系列可能的注意力模式。我们将邻域注意力表示为分批 GEMM 问题,实现了 1-D 和 2-D 邻域注意力,并且与现有的朴素内核相比,平均提供了 895% 和 272%的全精度延迟改进,我们观察到我们的融合内核成功地规避了未融合实现中不可避免的低效率。
Mar, 2024
本文提出了一种新的自注意力机制 ——Linformer,该机制通过近似自注意力矩阵,将自注意力机制的时间和空间复杂度从 O (n^2) 降低为 O (n),从而显著提高了 Transformer 模型的内存和时间效率。
Jun, 2020
本文提出了一种新的有效注意机制,其在计算代价和内存使用方面远优于点积注意力,这种资源效率使得它能够更广泛和灵活地集成到网络中,提高了观察精度,可以用于物体检测、实例分割和立体深度估计等领域。
Dec, 2018
Transformer-based models have achieved state-of-the-art performance, but the quadratic complexity of self-attention limits their applicability to long sequences; Fast Multipole Attention addresses this issue by reducing time and memory complexity, while maintaining a global receptive field with a hierarchical approach.
Oct, 2023
FlashAttention 算法解决了自我注意力在 Transformer 架构中的 I/O 复杂性问题,并且建立了通信复杂性与 I/O 复杂性之间的联系。
Feb, 2024
我们扩展了 FlashAttention 以容纳一大类稀疏性注意力模式,其中包括关键 / 查询删除和基于哈希的注意力。即使具有相对较低的稀疏度,我们的方法在序列长度增加时可见地改进 FlashAttention 的性能。不牺牲困惑度的情况下,我们将 transformer 语言模型的训练速度分别提高了 2.0 倍和 3.3 倍,对于长度为 8k 和 16k 的序列。
Jun, 2023
我们证明了张量注意力训练的反向梯度可以以几乎线性的 $n^{1+o (1)}$ 时间计算,同时提供了梯度的闭式解,并通过多项式逼近和张量代数技巧提出了一种快速计算方法。我们的理论结果证实了高阶 Transformer 训练的可行性,并可能促进张量注意力架构的实际应用。
May, 2024
在深度学习方面,使用 Transformer 架构的计算成本很高,使用近期提出的各种线性自我关注机制来解决,观察到 Performers 具有极大的计算灵活性,并且可以在训练期间仅占用 O(1)的内存,为去中心化和民主化的深度学习做出贡献。
Dec, 2020
通过分析自注意力机制的注意力矩阵分布和其专注能力,并引入一种新的自注意力机制(线性对数正态注意力),我们试图研究其与原始自注意力的分布和专注行为的模拟度量,实验结果在流行的自然语言基准测试中表明我们提出的线性对数正态注意力优于其他线性注意力替代方案,为提高 Transformer 模型的可扩展性提供了有前景的途径。
Nov, 2023