Apr, 2023

SparDL:高效稀疏通信的分布式深度学习训练

TL;DR提出了 SparDL,一种灵活而高效的稀疏通信框架,使用 Spar-Reduce-Scatter 算法来解决分布式深度学习中的梯度积累问题,并使用 Spar-All-Gather 算法进一步减少通信复杂度并调整延迟和带宽成本的比例,大量实验证明其卓越性能。