LightSeq：面向长上下文 Transformer 的分布式训练的序列级并行

Oct, 2023

LightSeq：面向长上下文 Transformer 的分布式训练的序列级并行

LightSeq: Sequence Level Parallelism for Distributed Training of Long Context Transformers

Dacheng Li, Rulin Shao, Anze Xie, Eric P. Xing, Joseph E. Gonzalez...

TL;DRLightSeq 是一种新的方法，用于长上下文大语言模型 (LLMs) 的训练，在流行的 LLMs 上比 Megatron-LM 通信量少且重叠计算，通过新的梯度检查点方案实现高效的注意力计算。

Abstract

Increasing the context length of large language models (LLMs) unlocks fundamentally new capabilities, but also significantly increases the memory footprints of →

large language models context length lightseq training communication

发现论文，激发创造

DeepSpeed Ulysses：极长序列 Transformer 模型训练的系统优化

DeepSpeed-Ulysses 是一种新颖、可移植和有效的方法，用于实现高效且可扩展的长序列大型语言模型的训练，包括在序列维度上划分输入数据和使用高效的全互联通信进行注意力计算。实验评估结果显示，DeepSpeed-Ulysses 在 4 倍较长的序列长度下比现有方法提供了 2.5 倍的训练速度。

Sep, 2023

LightSeq：Transformer 高性能推理库

本文提出 LightSeq，一种高效的推断库，以加速 Transformer 系列模型的计算和减少内存占用。实验结果表明，相较于 TensorFlow 和 FasterTransformer，LightSeq 可以实现多达 14 倍的加速。

Oct, 2020

超长序列分布式 Transformer

这篇论文提出了一种新颖高效的分布式训练方法，使用长短序列变压器（LSS Transformer）来训练长序列的变压器，将长序列分布到多个 GPU 上进行计算，并通过融合通信和双梯度平均技术来提高训练效率和减少通信开销。与最先进的序列并行方法相比，在 Wikipedia enwik8 数据集上，我们的方法在 144 个 Nvidia V100 GPU 上实现了 5.6 倍的加速和 10.2 倍的内存效率，且在 3,456 个 GPU 上可扩展到长度达到 50,112 的极限序列，实现了 161% 的超线性并行效率和 32 petaflops 的吞吐量。

Nov, 2023

面向百万级依赖建模的长序列模型的统一视图

本文探讨了 Transformers 在长序列建模中的应用，并提出了一种处理百万级依赖关系的机器学习系统，其中的分布式多头注意力机制可提高 40 倍的计算效率。

Feb, 2023

Megalodon: 高效的 LLM 预训练与无限上下文长度的推断

Megalodon 是一种用于有效的序列建模，能处理长序列的神经架构，通过引入多个技术组件，包括复杂的指数移动平均值、时间步归一化层、归一化注意机制和双跳剩余配置，提高了其能力和稳定性，在与 Llama2 的对比中在 70 亿参数和 2 万亿训练标记的规模上比 Transformer 更高效。

Apr, 2024

数据集分解：使用可变序列长度课程进行更快的 LLM 训练

通过数据集分解、变长序列训练技术、性能增强等方法，实现了对大型语言模型的高效训练和提升。

May, 2024

长文本生成 AI 的统一序列并行算法

通过比较序列并行性的通信和内存成本，本文提出了一种统一的序列并行性方法，适用于 Transformer 模型架构和网络硬件拓扑，实现了对长序列的生成 AI 模型的更好性能。

May, 2024

LongNet: 将 Transformer 扩展到 10 亿个标记

LongNet 是 Transformer 的一种变体，引入了扩张注意力（dilated attention）来扩展序列长度，使其能够处理超过 10 亿个标记的序列，同时不会牺牲短序列的性能表现。

Jul, 2023

百万长度视频和语言的环形注意力世界模型

当前语言模型在理解不易用文字描述的世界方面存在不足，并且在处理复杂和长期任务时存在困难。该论文通过利用视频序列的时间信息和语言的静态图像之间的联合建模，在人类文本知识和物理世界方面形成了深入的理解，从而实现了更广泛的人工智能能力。

Feb, 2024

大型语言模型的免训练长篇背景文本扩展

通过使用 Dual Chunk Attention (DCA) 来实现对超过 100k 个 token 的上下文窗口的支持，从而达到与有限调优模型相媲美，甚至更好性能的 70B 模型。

Feb, 2024