BurstAttention: 极长序列的高效分布式注意力框架

Mar, 2024

BurstAttention: 极长序列的高效分布式注意力框架

BurstAttention: An Efficient Distributed Attention Framework for Extremely Long Sequences

Sun Ao, Weilin Zhao, Xu Han, Cheng Yang, Zhiyuan Liu...

TL;DR我们提出了一种名为 “BurstAttention” 的分布式注意力框架，通过在全局集群和本地设备级别上优化内存访问和通信操作，相比于竞争的基准线，在处理长序列时减少 40% 的通信开销，训练 32K 序列长度时实现 2 倍加速。

Abstract

Effective attention modules have played a crucial role in the success of transformer-based large language models (LLMs), but the quadratic time and memory complexities of these →

attention modules transformer-based long sequences distributed attention framework burstattention

发现论文，激发创造

聚类注意力实现快速 Transformer

本文提出聚类注意力机制以解决 transformers 模型在处理长序列时，注意力矩阵的求解复杂度很高的问题，同时在计算预定义聚类的质心时，能够处理自由形式的注意力机制。

Jul, 2020

近无限背景下的分块 Transformer 环形注意力

传统的 Transformer 架构由于内存需求限制了其处理长序列的能力，而我们提出的 Ring Attention 方法通过分块计算自注意力和重叠通信的方式，提高了内存利用效率，允许处理更长的输入序列，从而消除了设备内存的限制，同时在语言建模任务上取得了显著的性能提升。

Oct, 2023

超长序列分布式 Transformer

这篇论文提出了一种新颖高效的分布式训练方法，使用长短序列变压器（LSS Transformer）来训练长序列的变压器，将长序列分布到多个 GPU 上进行计算，并通过融合通信和双梯度平均技术来提高训练效率和减少通信开销。与最先进的序列并行方法相比，在 Wikipedia enwik8 数据集上，我们的方法在 144 个 Nvidia V100 GPU 上实现了 5.6 倍的加速和 10.2 倍的内存效率，且在 3,456 个 GPU 上可扩展到长度达到 50,112 的极限序列，实现了 161% 的超线性并行效率和 32 petaflops 的吞吐量。

Nov, 2023

FlashAttention-2：更快的注意力计算，更好的并行和工作分割

使用 FlashAttention 和 FlashAttention-2 算法来提高模型的效率

Jul, 2023

快速多极注意力：一种长序列的分而治之注意机制

Transformer-based models have achieved state-of-the-art performance, but the quadratic complexity of self-attention limits their applicability to long sequences; Fast Multipole Attention addresses this issue by reducing time and memory complexity, while maintaining a global receptive field with a hierarchical approach.

Oct, 2023

LongNet: 将 Transformer 扩展到 10 亿个标记

LongNet 是 Transformer 的一种变体，引入了扩张注意力（dilated attention）来扩展序列长度，使其能够处理超过 10 亿个标记的序列，同时不会牺牲短序列的性能表现。

Jul, 2023

用于长上下文大模型的分块并行 Transformer

Blockwise Parallel Transformer (BPT) is a distinct approach to address memory demands posed by the self-attention mechanism and the large feedforward network in Transformers, which enables training sequences up to 32 times longer than vanilla Transformers and 2 to 4 times longer than previous memory-efficient methods, and improves performance in language modeling and reinforcement learning tasks.

May, 2023

精简注意力：面向 Transformer 解码阶段的硬件感知可扩展注意力机制

LeanAttention 是一种可扩展的自注意力计算技术，通过重新设计解码阶段的执行流程，将自注意力机制的实现扩展到具有挑战性的长上下文长度情况，以并行计算的方式提供 2.6 倍的平均注意力执行加速和最多 8.33 倍的速度提升。

May, 2024

大规模序列中通过稀疏闪存注意力加速因果注意力

我们扩展了 FlashAttention 以容纳一大类稀疏性注意力模式，其中包括关键 / 查询删除和基于哈希的注意力。即使具有相对较低的稀疏度，我们的方法在序列长度增加时可见地改进 FlashAttention 的性能。不牺牲困惑度的情况下，我们将 transformer 语言模型的训练速度分别提高了 2.0 倍和 3.3 倍，对于长度为 8k 和 16k 的序列。

Jun, 2023

闪电关注 - 2：在大型语言模型中处理无限序列长度的免费午餐

该论文介绍了 Lightning Attention-2，首个能实现线性注意力的理论计算优势的线性注意力实现方法，通过利用平铺技术和 GPU 硬件，充分发挥其在不同模型尺寸和序列长度上的训练和推理速度的一致性，并且比其他注意力机制更快。

Jan, 2024