Sep, 2023

DeepSpeed Ulysses:极长序列Transformer模型训练的系统优化

TL;DRDeepSpeed-Ulysses是一种新颖、可移植和有效的方法,用于实现高效且可扩展的长序列大型语言模型的训练,包括在序列维度上划分输入数据和使用高效的全互联通信进行注意力计算。实验评估结果显示,DeepSpeed-Ulysses在4倍较长的序列长度下比现有方法提供了2.5倍的训练速度。