GPU 数据中心中的深度学习工作负载调度:分类、挑战和前景
大规模分布式深度学习中,资源分配和工作负载调度的高效策略是实现高性能深度学习的关键。本综述调查了 2019 年至 2024 年间关于大规模分布式深度学习的资源分配和工作负载调度策略的文献,并通过探索不同类型的资源、调度粒度和性能目标,以及实际案例研究为例,突出了每个主题的关键挑战和现有技术的重要见解,旨在鼓励计算机科学、人工智能和通信研究人员了解最新进展并探索大规模分布式深度学习的未来研究方向。
Jun, 2024
我们提出了一种新颖的 GPU 集群调度器,用于分布式深度学习工作负载,基于 DDL 作业对预期通信网络延迟的敏感性实现了基于邻近性的资源整合,通过经典的延迟调度算法来实现作业的放置和整合,使用数据驱动的 DDL 集群模拟平台进行了大规模实验,证明了我们设计的优势。在拥挤的网络条件下,与现有的基于整合的调度方法相比,我们的调度器可以提供多达 69% 的端到端完成时间的改进,同时将平均作业完成时间降低多达 83%,并将通信开销最小化多达 98%。
Jan, 2024
本研究提出一种基于多智能体强化学习和演员 - 评论家方法的算法,通过与真实工作负载模式、能源价格和碳强度相互作用的云系统学习最优的协同调度策略,从而最大化 GPU 利用率、降低运营成本和减少碳排放。与其他算法相比,我们的方法提高了系统效用,最高可达 28.6%。
Apr, 2023
本文在最小化数据中心网络中的工作调度时间方面进行了深入研究,提出了一种基于深度强化学习的改进方法并将其扩展到多个服务器群集,结果表明,相比于传统的资源分配算法,深度强化学习方法在各种复杂环境中有着出色的性能表现。
Nov, 2017
本文介绍了如何将深度学习应用于实时任务调度中的固定优先全局调度问题,并简要讨论了几种可能的深度学习采用方式,例如具有依赖性的任务调度和混合关键任务调度。我们认为,借助先进的深度学习技术,有很多机会来提高各种系统配置和问题场景中的调度质量。
Dec, 2020
本文针对分布式机器学习系统的调度问题,使用参数服务器框架设计了一种在线算法,以最大化所有作业的整体效用,并在跟踪驱动模拟和实验测试中证明了其优越性。
Jan, 2018
该研究旨在通过使用机器学习模型来预测 GPU 故障,以改善在深度学习任务中可能导致的严重后果,并提出多种技术来提高预测精度,最终将预测精度从 46.3%提高到 84.0%。
Jan, 2022
本文通过使用机器学习优化技术,提出了一种创新的方法来解决云计算资源调度和管理中的复杂问题,通过对云环境中低资源利用率和负载不平衡等挑战的深入研究,本研究提出了包括深度学习和遗传算法等优化方法在内的全面解决方案,以提高系统性能和效率,从而在云计算资源管理领域带来新的突破和进展。合理分配资源在云计算中起着至关重要的作用。
Feb, 2024
深度强化学习 (DRL) 在机器调度问题中的方法和应用进行了全面的综述和比较,发现 DRL 方法在计算速度和生成接近全局最优解方面表现优于其他方法,但面临着处理复杂操作约束、多目标优化、泛化性、可扩展性、解释性和鲁棒性等限制,解决这些挑战将是未来研究中的关键焦点。该论文为研究人员评估当前 DRL 机器调度领域的现状以及发现研究空白提供了宝贵的资源,同时也帮助专家和从业者选择适合生产调度的 DRL 方法。
Oct, 2023