在分布式异步环境下调控动量
本文证明,异步优化算法中添加一类类动量项,可加速训练多层神经网络,对于卷积神经网络,异步度与动量呈直线关系,故在异步执行时,动量调整得当可提升算法效率,反之也可采用相反的动量来改善结果。
May, 2016
本文提出了一种改进的异步 SGD 算法,通过梯度陈旧程度对学习速率进行调节,以提高其稳定性和收敛速度,在 CIFAR10 和 Imagenet 数据集上进行了实验验证,并证明了该算法的优越性。
Nov, 2015
该研究比较了同步和异步随机梯度下降的收敛性,针对 ImageNet 分类问题的训练,在 32 个节点以下异步 SGD 包括弹性平均和 gossiping 能更快收敛,而同步 SGD 在 100 个节点以下能更好地扩展。
Nov, 2016
提出了一种利用全局动量和局部平均梯度的梯度调度算法 GSGM 来处理非 IID 数据的分布式异步训练问题,并进行了一系列实验,结果表明 GSGM 算法相对于同类算法可以提高 20% 的训练稳定性并略微提高准确性,同时在稀疏数据分布的情况下可以提高 37% 的训练稳定性,在 30 个计算节点的情况下仍表现出较好的收敛性能,对不同程度的非 IID 数据鲁棒性强。
Feb, 2019
该研究提出了一种名为 Gap-Aware(GA)的新的异步 - 分布式方法,通过线性惩罚梯度滞后度量 Gap 并在大量工作者的情况下表现良好,即使在异步环境中应用 GA,动量仍然有益处。
Sep, 2019
本研究分析同步和异步分布式随机梯度下降算法的误差和训练时间之间的权衡,考虑到随机拖延延迟,提出了逐渐变化同步性的方法,并在 CIFAR10 数据集上表现良好。
Mar, 2020
本文研究了分布式训练深度学习模型时采用同步优化的可行性,发现同步优化虽然会浪费一些等待时间,但采用备用工作者的方式可以避免异步噪声并加速收敛,同时能够在保证准确性的前提下提高测试准确率。
Apr, 2016
本文提出了一种基于异步随机梯度下降的快速分布式机器学习算法,采用变量规约技术,可使用常量的学习率,并保证线性收敛到最优解,在 Google 云计算平台上的实验表明,该算法在墙时钟时间和解的质量方面优于最先进的分布式异步算法。
Aug, 2015
本文通过对简单但非平凡的非凸问题 - 流式 PCA 的分析,建立了异步动量随机梯度下降算法 (Async-MSGD) 在流式 PCA 中渐进收敛速率的扩散近似,结果表明异步和动量之间存在根本的权衡:为了通过异步获取收敛和加速,我们必须降低动量 (与 Sync-MSGD 相比),这是对异步 - MSGD 在分布式非凸随机优化中理解的第一次理论尝试。
Jun, 2018