线性注意力序列并行
通过比较序列并行性的通信和内存成本,本文提出了一种统一的序列并行性方法,适用于 Transformer 模型架构和网络硬件拓扑,实现了对长序列的生成 AI 模型的更好性能。
May, 2024
这篇论文提出了一种新颖高效的分布式训练方法,使用长短序列变压器(LSS Transformer)来训练长序列的变压器,将长序列分布到多个 GPU 上进行计算,并通过融合通信和双梯度平均技术来提高训练效率和减少通信开销。与最先进的序列并行方法相比,在 Wikipedia enwik8 数据集上,我们的方法在 144 个 Nvidia V100 GPU 上实现了 5.6 倍的加速和 10.2 倍的内存效率,且在 3,456 个 GPU 上可扩展到长度达到 50,112 的极限序列,实现了 161% 的超线性并行效率和 32 petaflops 的吞吐量。
Nov, 2023
LightSeq 是一种新的方法,用于长上下文大语言模型 (LLMs) 的训练,在流行的 LLMs 上比 Megatron-LM 通信量少且重叠计算,通过新的梯度检查点方案实现高效的注意力计算。
Oct, 2023
本文提出了一种名为 SALO 的加速器,能够使得 Transformer 等注意力机制在处理长序列时具有更好的性能,并通过实验证明 SALO 相比于典型工作负载下的 GPU 和 CPU 实现,分别具有 17.66 倍和 89.33 倍的加速比。
Jun, 2022
我们提出了一种名为 “BurstAttention” 的分布式注意力框架,通过在全局集群和本地设备级别上优化内存访问和通信操作,相比于竞争的基准线,在处理长序列时减少 40% 的通信开销,训练 32K 序列长度时实现 2 倍加速。
Mar, 2024
通过对大型语言模型的多种训练配置进行全面的消融研究,我们总结出几个关键建议,以实现最高效的训练,例如,我们发现使用微批量大小为 1 通常能实现最高效的训练布局。较大的微批量大小需要激活检查点或更高程度的模型并行性,并且还会导致更大的管道延迟。我们最高效的配置使得在一系列模型规模上实现了最先进的训练效率结果,尤其是在训练 13B 模型时,模型 FLOPs 利用率达到了 70.5%。
Nov, 2023
提出了一种弹性序列并行性(ESP)的新并行策略,以适应大语言模型(LLMs)的不同请求和不同阶段之间的差异,并设计构建了一个名为 LoongServe 的 LLM 服务系统,该系统通过实时弹性调整并行度、减少键值缓存迁移开销、同时计算部分解码通信以及减少键值缓存碎片化,从而提高计算效率、通信效率和 GPU 内存性能。评估结果表明,与分块预填充和预填充解耦相比,LoongServe 最大吞吐量提高了 3.85 倍和 5.81 倍。
Apr, 2024
本研究提出了 LSG attention 机制以解决 Transformer 模型自注意力机制中违反 $O (n^2)$ 的限制,同时还提出了相应工具和方法用于新模型的训练和现有模型的调整。实验结果表明,LSG attention 机制在长文本的分类和摘要任务中效率优秀,也可以用于有效地扩展预训练模型的序列长度。
Oct, 2022