Jan, 2021

分布式训练系统中高效的基于统计的梯度压缩技术

TL;DR本文提出了一种使用稀疏诱导分布对数据进行压缩的算法(SIDCo),可以在降低模型质量和额外计算量的情况下,提高深度神经网络的分布式训练效率。在基准测试中,该算法相对于无压缩基线、Topk 和 DGC 压缩器,可以将训练时间提高最多 41.7%,7.6%和 1.9%。