Apr, 2024

高效通信的大规模分布式深度学习综述

TL;DR这篇文章调查了2018年至2023年期间关于算法和技术的文献,旨在实现大规模分布式深度学习中的高效通信,包括算法、框架和基础设施。具体而言,我们首先介绍了在大规模分布式训练中模型同步和通信数据压缩方面的高效算法。接下来,我们介绍了与分布式训练和推理中资源分配和任务调度相关的高效策略。此后,我们介绍了现代通信基础设施中使用的最新技术,重点研究了大规模和异构环境下通信开销的影响。最后,我们通过对大规模语言模型的分布式训练进行案例研究,展示了如何在实际情况中应用这些技术。这篇文章旨在为研究人员提供对大规模分布式深度学习的现状全面的理解,并揭示在这一领域中通信高效解决方案的有希望的未来研究方向。