Oct, 2023

MAD Max 超越单节点:在分布式系统上加速大规模机器学习模型

TL;DR基于真实世界的大规模模型训练和数据中心规模基础设施,我们展示了 14~32% 的 GPU 时间用于非重叠计算的通信。为了最小化未完成的通信延迟,在这项工作中,我们开发了一个灵活的性能建模框架来指导并行化和硬件软件共同设计策略。通过使用现代 GPU 训练硬件上的真实大规模 ML 模型套件,我们分别展示了预训练和推理场景的 2.24 倍和 5.27 倍的吞吐量提升潜力。