超长序列分布式 Transformer

Nov, 2023

Ultra-Long Sequence Distributed Transformer

Xiao Wang, Isaac Lyngaas, Aristeidis Tsaris, Peng Chen, Sajal Dash...

TL;DR这篇论文提出了一种新颖高效的分布式训练方法，使用长短序列变压器（LSS Transformer）来训练长序列的变压器，将长序列分布到多个 GPU 上进行计算，并通过融合通信和双梯度平均技术来提高训练效率和减少通信开销。与最先进的序列并行方法相比，在 Wikipedia enwik8 数据集上，我们的方法在 144 个 Nvidia V100 GPU 上实现了 5.6 倍的加速和 10.2 倍的内存效率，且在 3,456 个 GPU 上可扩展到长度达到 50,112 的极限序列，实现了 161% 的超线性并行效率和 32 petaflops 的吞吐量。

Abstract

transformer models trained on long sequences often achieve higher accuracy than short sequences. Unfortunately, conventional transformers struggle with long sequence training due to the overwhelming computation a

transformer models long sequence training lss transformer distributed training sequence parallelism

发现论文，激发创造

DeepSpeed Ulysses：极长序列 Transformer 模型训练的系统优化

DeepSpeed-Ulysses 是一种新颖、可移植和有效的方法，用于实现高效且可扩展的长序列大型语言模型的训练，包括在序列维度上划分输入数据和使用高效的全互联通信进行注意力计算。实验评估结果显示，DeepSpeed-Ulysses 在 4 倍较长的序列长度下比现有方法提供了 2.5 倍的训练速度。

Sep, 2023

长短期 Transformer: 语言和视觉的高效 Transformer

提出了一种名为 “长短变压器” 的模型，其中使用自注意力机制处理长文本和高分辨率图像，同时引入了一种新型的远距离关注和短期关注机制，并采用双重归一化策略来处理两种注意力机制之间的规模差异。通过在多个语言和视觉任务中的表现，该方法优于现有的方法。

Jul, 2021

IceFormer: 基于 CPU 的长序列 Transformer 加速推理

通过加速自注意机制在推断时的方法，我们成功加速了各种长序列转换器，并在各个基准测试中展示了 2.73 倍 - 7.63 倍的速度提升，同时保留了 98.6%-99.6% 的原始预训练模型的准确性。

May, 2024

LightSeq：面向长上下文 Transformer 的分布式训练的序列级并行

LightSeq 是一种新的方法，用于长上下文大语言模型 (LLMs) 的训练，在流行的 LLMs 上比 Megatron-LM 通信量少且重叠计算，通过新的梯度检查点方案实现高效的注意力计算。

Oct, 2023

LSG 注意力机制：将预训练的 Transformer 推广到长序列

本研究提出了 LSG attention 机制以解决 Transformer 模型自注意力机制中违反 $O (n^2)$ 的限制，同时还提出了相应工具和方法用于新模型的训练和现有模型的调整。实验结果表明，LSG attention 机制在长文本的分类和摘要任务中效率优秀，也可以用于有效地扩展预训练模型的序列长度。

Oct, 2022

BurstAttention: 极长序列的高效分布式注意力框架

我们提出了一种名为 “BurstAttention” 的分布式注意力框架，通过在全局集群和本地设备级别上优化内存访问和通信操作，相比于竞争的基准线，在处理长序列时减少 40% 的通信开销，训练 32K 序列长度时实现 2 倍加速。

Mar, 2024

面向百万级依赖建模的长序列模型的统一视图

本文探讨了 Transformers 在长序列建模中的应用，并提出了一种处理百万级依赖关系的机器学习系统，其中的分布式多头注意力机制可提高 40 倍的计算效率。

Feb, 2023

科学图像前沿上视觉 Transformer 的序列长度缩放

利用分布式序列并行化技术以及混合序列、流水线和张量并行化策略，使得 Vision Transformers 在处理大序列长度和训练 10B 参数模型时能够取得更好的性能表现，从而提高气候模型的精度。

Apr, 2024

用于长上下文大模型的分块并行 Transformer

Blockwise Parallel Transformer (BPT) is a distinct approach to address memory demands posed by the self-attention mechanism and the large feedforward network in Transformers, which enables training sequences up to 32 times longer than vanilla Transformers and 2 to 4 times longer than previous memory-efficient methods, and improves performance in language modeling and reinforcement learning tasks.

May, 2023

利用稀疏变换器生成长序列

本文介绍了一种称为 Sparse Transformers 的神经网络架构，该架构通过稀疏的注意力矩阵因式分解和其他一些技术，可以更有效地处理长序列等任务，并在 Enwik8，CIFAR-10，和 ImageNet-64 等基准数据集上创造出新的最优表现。

Apr, 2019