NIPSSep, 2018

带记忆的稀疏化随机梯度下降

TL;DR对于分布式算法,通过对随机梯度下降(SGD)的压缩(如 top-k 或 random-k)等技术进行分析,发现它在进行误差补偿的情况下,能够实现与传统 SGD 相同的收敛速度,降低数据通信量达到更好的分布式可扩展性。