Nov, 2019

Local AdaAlter: 基于自适应学习率的通信高效性随机梯度下降

TL;DR本篇论文提出了一种新的 SGD 变体算法,降低了通信开销及提高自适应学习率,经实验证明,该算法显著降低了通信开销,进而缩短了 1B 字数据集的训练时间 30%。