Oct, 2023
LightSeq:面向长上下文 Transformer 的分布式训练的序列级并行
LightSeq: Sequence Level Parallelism for Distributed Training of Long Context Transformers
Dacheng Li, Rulin Shao, Anze Xie, Eric P. Xing, Joseph E. Gonzalez...
TL;DRLightSeq 是一种新的方法,用于长上下文大语言模型 (LLMs) 的训练,在流行的 LLMs 上比 Megatron-LM 通信量少且重叠计算,通过新的梯度检查点方案实现高效的注意力计算。