Jun, 2024

大规模分布式深度学习的资源分配和工作负载调度研究

TL;DR大规模分布式深度学习中,资源分配和工作负载调度的高效策略是实现高性能深度学习的关键。本综述调查了 2019 年至 2024 年间关于大规模分布式深度学习的资源分配和工作负载调度策略的文献,并通过探索不同类型的资源、调度粒度和性能目标,以及实际案例研究为例,突出了每个主题的关键挑战和现有技术的重要见解,旨在鼓励计算机科学、人工智能和通信研究人员了解最新进展并探索大规模分布式深度学习的未来研究方向。