Sep, 2023

Zen: 高效稀疏张量同步的分布式深度神经网络训练

TL;DR这篇论文研究了在分布式训练深度神经网络中,梯度同步的通信性能瓶颈问题,并发现了梯度张量的稀疏性可以减少通信量从而提高整体训练效率,通过系统地探索通信方案的设计空间,找到了最佳方案,并开发了名为 Zen 的梯度同步系统,通过对稀疏张量的近似实现可以实现高达 5.09 倍的通信时间加速和 2.48 倍的训练吞吐量加速。