Apr, 2023
SparDL:高效稀疏通信的分布式深度学习训练
SparDL: Distributed Deep Learning Training with Efficient Sparse Communication
Minjun Zhao, Yichen Yin, Yuren Mao, Lu Chen, Yunjun Gao
TL;DR提出了 SparDL,一种灵活而高效的稀疏通信框架,使用 Spar-Reduce-Scatter 算法来解决分布式深度学习中的梯度积累问题,并使用 Spar-All-Gather 算法进一步减少通信复杂度并调整延迟和带宽成本的比例,大量实验证明其卓越性能。