BriefGPT.xyz
Ask
alpha
关键词
adaptive parallelism
搜索结果 - 1
大规模模型训练在异构集群中的调度和并行化的协同设计
Crius 是一个用于在异构集群中以自适应并行性高效调度多个大型模型的训练系统,它通过引入称为 Cell 的新调度粒度将数据并行性和张量并行性的探索空间缩小到最小,从而实现准确且低开销的性能估计。通过选择 Cell 作为调度选择,Crius
→
PDF
3 months ago
Prev
Next