MMDec, 2017

深度梯度压缩:降低分布式训练的通信带宽

TL;DR本文提出深度梯度压缩 (DGC),通过动量修正、局部梯度截断、动量因子掩模和预热训练,使得分布式 SGD 中 99.9% 的梯度交换变得不重要,从而大大减少通信带宽需求,有效保持模型准确率,支持在 1Gbps 以太网和移动设备上进行大规模分布式训练。