BurstAttention: 极长序列的高效分布式注意力框架
本文提出聚类注意力机制以解决 transformers 模型在处理长序列时,注意力矩阵的求解复杂度很高的问题,同时在计算预定义聚类的质心时,能够处理自由形式的注意力机制。
Jul, 2020
传统的 Transformer 架构由于内存需求限制了其处理长序列的能力,而我们提出的 Ring Attention 方法通过分块计算自注意力和重叠通信的方式,提高了内存利用效率,允许处理更长的输入序列,从而消除了设备内存的限制,同时在语言建模任务上取得了显著的性能提升。
Oct, 2023
这篇论文提出了一种新颖高效的分布式训练方法,使用长短序列变压器(LSS Transformer)来训练长序列的变压器,将长序列分布到多个 GPU 上进行计算,并通过融合通信和双梯度平均技术来提高训练效率和减少通信开销。与最先进的序列并行方法相比,在 Wikipedia enwik8 数据集上,我们的方法在 144 个 Nvidia V100 GPU 上实现了 5.6 倍的加速和 10.2 倍的内存效率,且在 3,456 个 GPU 上可扩展到长度达到 50,112 的极限序列,实现了 161% 的超线性并行效率和 32 petaflops 的吞吐量。
Nov, 2023
Transformer-based models have achieved state-of-the-art performance, but the quadratic complexity of self-attention limits their applicability to long sequences; Fast Multipole Attention addresses this issue by reducing time and memory complexity, while maintaining a global receptive field with a hierarchical approach.
Oct, 2023
LongNet 是 Transformer 的一种变体,引入了扩张注意力(dilated attention)来扩展序列长度,使其能够处理超过 10 亿个标记的序列,同时不会牺牲短序列的性能表现。
Jul, 2023
Blockwise Parallel Transformer (BPT) is a distinct approach to address memory demands posed by the self-attention mechanism and the large feedforward network in Transformers, which enables training sequences up to 32 times longer than vanilla Transformers and 2 to 4 times longer than previous memory-efficient methods, and improves performance in language modeling and reinforcement learning tasks.
May, 2023
LeanAttention 是一种可扩展的自注意力计算技术,通过重新设计解码阶段的执行流程,将自注意力机制的实现扩展到具有挑战性的长上下文长度情况,以并行计算的方式提供 2.6 倍的平均注意力执行加速和最多 8.33 倍的速度提升。
May, 2024
我们扩展了 FlashAttention 以容纳一大类稀疏性注意力模式,其中包括关键 / 查询删除和基于哈希的注意力。即使具有相对较低的稀疏度,我们的方法在序列长度增加时可见地改进 FlashAttention 的性能。不牺牲困惑度的情况下,我们将 transformer 语言模型的训练速度分别提高了 2.0 倍和 3.3 倍,对于长度为 8k 和 16k 的序列。
Jun, 2023
该论文介绍了 Lightning Attention-2,首个能实现线性注意力的理论计算优势的线性注意力实现方法,通过利用平铺技术和 GPU 硬件,充分发挥其在不同模型尺寸和序列长度上的训练和推理速度的一致性,并且比其他注意力机制更快。
Jan, 2024