Oct, 2023

LightSeq:面向长上下文 Transformer 的分布式训练的序列级并行

TL;DRLightSeq 是一种新的方法,用于长上下文大语言模型 (LLMs) 的训练,在流行的 LLMs 上比 Megatron-LM 通信量少且重叠计算,通过新的梯度检查点方案实现高效的注意力计算。