May, 2019

具有误差反馈的通信高效分布式块动量 SGD

TL;DR提出了一种基于 Nesterov 的动量的分布式压缩的 SGD 方法,通过两种方式压缩梯度并将梯度分块,每个梯度块都以 1 位格式进行压缩和传输,并实现了近 32 倍的通信降低,实验表明该方法与精度相同的动量 SGD 收敛速度相同,并在分布式 ResNet 训练中达到与全精度梯度动量 SGD 相同的测试精度,而时间缩短了 46%。