快速多极注意力：一种长序列的分而治之注意机制

Oct, 2023

快速多极注意力：一种长序列的分而治之注意机制

Fast Multipole Attention: A Divide-and-Conquer Attention Mechanism for Long Sequences

Yanming Kang, Giang Tran, Hans De Sterck

TL;DRTransformer-based models have achieved state-of-the-art performance, but the quadratic complexity of self-attention limits their applicability to long sequences; Fast Multipole Attention addresses this issue by reducing time and memory complexity, while maintaining a global receptive field with a hierarchical approach.

Abstract

transformer-based models have achieved state-of-the-art performance in many areas. However, the quadratic complexity of self-attention with respect to the input length hinders the applicability of →

transformer-based models fast multipole attention quadratic complexity long sequences hierarchical approach

发现论文，激发创造

FAST: 可因子化注意力提升 Transformer 速度

通过引入可分解的关注机制，我们将注意力机制的计算和内存复杂度从 O (N^2) 降低到 O (N)，并保持了注意力矩阵的完整表示，具有稀疏性和全连接关系。经过各种标准设置的测试，结果表明我们的注意力机制具有稳定的性能，并在自我注意力被使用的多种应用领域中具有重要潜力。

Feb, 2024

聚类注意力实现快速 Transformer

本文提出聚类注意力机制以解决 transformers 模型在处理长序列时，注意力矩阵的求解复杂度很高的问题，同时在计算预定义聚类的质心时，能够处理自由形式的注意力机制。

Jul, 2020

H-Transformer-1D: 序列快速一维分层注意力

本研究提出了一种高效的基于矩阵结构的层次注意力方法，并证明了这种方法在自然语言和视觉任务中捕捉层次结构的归纳偏差是有效的，相比于其他次二次方提议在 Long Range Arena 基准测试上平均提高了 6 个百分点，在 One-Billion Word 数据集上也取得了新的 SOTA 测试困惑度。

Jul, 2021

精简注意力：面向 Transformer 解码阶段的硬件感知可扩展注意力机制

LeanAttention 是一种可扩展的自注意力计算技术，通过重新设计解码阶段的执行流程，将自注意力机制的实现扩展到具有挑战性的长上下文长度情况，以并行计算的方式提供 2.6 倍的平均注意力执行加速和最多 8.33 倍的速度提升。

May, 2024

大规模序列中通过稀疏闪存注意力加速因果注意力

我们扩展了 FlashAttention 以容纳一大类稀疏性注意力模式，其中包括关键 / 查询删除和基于哈希的注意力。即使具有相对较低的稀疏度，我们的方法在序列长度增加时可见地改进 FlashAttention 的性能。不牺牲困惑度的情况下，我们将 transformer 语言模型的训练速度分别提高了 2.0 倍和 3.3 倍，对于长度为 8k 和 16k 的序列。

Jun, 2023

BurstAttention: 极长序列的高效分布式注意力框架

我们提出了一种名为 “BurstAttention” 的分布式注意力框架，通过在全局集群和本地设备级别上优化内存访问和通信操作，相比于竞争的基准线，在处理长序列时减少 40% 的通信开销，训练 32K 序列长度时实现 2 倍加速。

Mar, 2024

FlashAttention-2：更快的注意力计算，更好的并行和工作分割

使用 FlashAttention 和 FlashAttention-2 算法来提高模型的效率

Jul, 2023

Fovea Transformer：高效的结构化精细到粗糙注意力长上下文建模

Fovea Transformer 是一种以长 - context 为中心的 Transformer 模型，通过在输入序列中构建一个多尺度树来提高模型对全局依赖性的捕捉能力，并在长 - context 摘要任务上取得了最先进的性能。

Nov, 2023

CloudAttention：用于 3D 点云学习的高效多尺度注意力方案

使用集合转换器在分层框架中对点云进行形状分类和分割，实现了状态 - of-the-art 的性能，并可用于处理大规模稀疏数据。

Jul, 2022

基于 Top-k 注意力的内存高效 Transformer

本文介绍了一种简单而高效的用于 vanilla attention 的逼近算法，基于对查询进行分块的计算，在多个数据集上的评估表明其准确性接近于 vanilla attention。

Jun, 2021