Mar, 2024

大规模模型训练在异构集群中的调度和并行化的协同设计

TL;DRCrius 是一个用于在异构集群中以自适应并行性高效调度多个大型模型的训练系统,它通过引入称为 Cell 的新调度粒度将数据并行性和张量并行性的探索空间缩小到最小,从而实现准确且低开销的性能估计。通过选择 Cell 作为调度选择,Crius 能够运行具有优化并行性计划的作业,实验结果表明 Crius 能够将作业完成时间缩短高达 48.9%,并提高 1.49 倍的集群吞吐量。