Jan, 2024

网络敏感深度学习的 GPU 集群调度

TL;DR我们提出了一种新颖的 GPU 集群调度器,用于分布式深度学习工作负载,基于 DDL 作业对预期通信网络延迟的敏感性实现了基于邻近性的资源整合,通过经典的延迟调度算法来实现作业的放置和整合,使用数据驱动的 DDL 集群模拟平台进行了大规模实验,证明了我们设计的优势。在拥挤的网络条件下,与现有的基于整合的调度方法相比,我们的调度器可以提供多达 69% 的端到端完成时间的改进,同时将平均作业完成时间降低多达 83%,并将通信开销最小化多达 98%。