线性注意力序列并行

Apr, 2024

Linear Attention Sequence Parallelism

Weigao Sun, Zhen Qin, Dong Li, Xuyang Shen, Yu Qiao...

TL;DR本文介绍了一种基于线性注意力的语言模型的高效序列并行化方法 ——LASP，通过设计高效的点对点通信机制以及融合核函数和中间状态缓存来使其在 GPU 集群上实现硬件友好且能与批量并行方法兼容，从而在大规模集群上具有更高的并行化效率和可用性。

Abstract

sequence parallel (SP) serves as a prevalent strategy to handle long sequences that exceed the memory limit of a single GPU. However, existing SP methods do not take advantage of linear attention features, result

sequence parallel linear attention language models efficiency gpu clusters

发现论文，激发创造

长文本生成 AI 的统一序列并行算法

通过比较序列并行性的通信和内存成本，本文提出了一种统一的序列并行性方法，适用于 Transformer 模型架构和网络硬件拓扑，实现了对长序列的生成 AI 模型的更好性能。

May, 2024

FlashAttention-2：更快的注意力计算，更好的并行和工作分割

使用 FlashAttention 和 FlashAttention-2 算法来提高模型的效率

Jul, 2023

超长序列分布式 Transformer

这篇论文提出了一种新颖高效的分布式训练方法，使用长短序列变压器（LSS Transformer）来训练长序列的变压器，将长序列分布到多个 GPU 上进行计算，并通过融合通信和双梯度平均技术来提高训练效率和减少通信开销。与最先进的序列并行方法相比，在 Wikipedia enwik8 数据集上，我们的方法在 144 个 Nvidia V100 GPU 上实现了 5.6 倍的加速和 10.2 倍的内存效率，且在 3,456 个 GPU 上可扩展到长度达到 50,112 的极限序列，实现了 161% 的超线性并行效率和 32 petaflops 的吞吐量。

Nov, 2023

LightSeq：面向长上下文 Transformer 的分布式训练的序列级并行

LightSeq 是一种新的方法，用于长上下文大语言模型 (LLMs) 的训练，在流行的 LLMs 上比 Megatron-LM 通信量少且重叠计算，通过新的梯度检查点方案实现高效的注意力计算。

Oct, 2023

SALO: 一种高效的空间加速器，支持长序列的混合稀疏注意机制

本文提出了一种名为 SALO 的加速器，能够使得 Transformer 等注意力机制在处理长序列时具有更好的性能，并通过实验证明 SALO 相比于典型工作负载下的 GPU 和 CPU 实现，分别具有 17.66 倍和 89.33 倍的加速比。

Jun, 2022

BurstAttention: 极长序列的高效分布式注意力框架

我们提出了一种名为 “BurstAttention” 的分布式注意力框架，通过在全局集群和本地设备级别上优化内存访问和通信操作，相比于竞争的基准线，在处理长序列时减少 40% 的通信开销，训练 32K 序列长度时实现 2 倍加速。

Mar, 2024

DSP: 多维 Transformer 的动态序列并行化

通过动态序列并行化实现多维 Transformer 模型的高效并行计算，提升了 42.0% 至 216.8% 的整体吞吐量。

Mar, 2024

大规模分布式模型训练的高效并行化布局

通过对大型语言模型的多种训练配置进行全面的消融研究，我们总结出几个关键建议，以实现最高效的训练，例如，我们发现使用微批量大小为 1 通常能实现最高效的训练布局。较大的微批量大小需要激活检查点或更高程度的模型并行性，并且还会导致更大的管道延迟。我们最高效的配置使得在一系列模型规模上实现了最先进的训练效率结果，尤其是在训练 13B 模型时，模型 FLOPs 利用率达到了 70.5%。

Nov, 2023

LoongServe：高效提供弹性序列并行性的长上下文大模型

提出了一种弹性序列并行性（ESP）的新并行策略，以适应大语言模型（LLMs）的不同请求和不同阶段之间的差异，并设计构建了一个名为 LoongServe 的 LLM 服务系统，该系统通过实时弹性调整并行度、减少键值缓存迁移开销、同时计算部分解码通信以及减少键值缓存碎片化，从而提高计算效率、通信效率和 GPU 内存性能。评估结果表明，与分块预填充和预填充解耦相比，LoongServe 最大吞吐量提高了 3.85 倍和 5.81 倍。

Apr, 2024

LSG 注意力机制：将预训练的 Transformer 推广到长序列

本研究提出了 LSG attention 机制以解决 Transformer 模型自注意力机制中违反 $O (n^2)$ 的限制，同时还提出了相应工具和方法用于新模型的训练和现有模型的调整。实验结果表明，LSG attention 机制在长文本的分类和摘要任务中效率优秀，也可以用于有效地扩展预训练模型的序列长度。

Oct, 2022