本文提出了一种基于异步随机梯度下降的快速分布式机器学习算法,采用变量规约技术,可使用常量的学习率,并保证线性收敛到最优解,在 Google 云计算平台上的实验表明,该算法在墙时钟时间和解的质量方面优于最先进的分布式异步算法。
Aug, 2015
本文提出了一种利用异步单向通信范例的新型并行更新算法 ASGD,相较于现有方法,ASGD 具有更快(或至少相当)的收敛速度,接近于线性的缩放以及稳定的准确性,在大规模机器学习问题中具有应用前景。
May, 2015
本文提出了一种自适应学习率算法,该算法利用了损失函数的随机曲率信息自动调整学习率,并且提出了一种新的方差缩减技术以加速收敛,在深度神经网络实验中,相比于流行的随机梯度算法获得了更好的性能。
Mar, 2017
本文提出了一种异步的分布式随机梯度下降算法(AD-PSGD)来解决异构环境下常用的同步算法(如 AllReduce-SGD)和参数服务器 suffer from 的问题,并且在理论分析和经验结果上证明了 AD-PSGD 在异构环境下具有良好的收敛速度和通信效率优势。
Oct, 2017
本研究探讨了两种异步并行随机梯度下降的实现方式,并证明了它们的收敛率均为 O (1 / 根号 K),且在工作者数受到限制的情况下可实现线性加速。
Jun, 2015
本篇论文提出了一种新的 SGD 变体算法,降低了通信开销及提高自适应学习率,经实验证明,该算法显著降低了通信开销,进而缩短了 1B 字数据集的训练时间 30%。
Nov, 2019
研究了 SGD 算法在高维参数空间下最简单在线版本的性能,通过对样本数量的阈值来确定参数估计的一致性,其阈值是多项式维度的,取决于信息指数。
Mar, 2020
本文提出了一种适用于任意连接通信网络和任何光滑(可能是非凸的)代价函数的分布式原始 - 对偶随机梯度下降(SGD)算法,证明了该算法实现了常数参数的输出线性收敛到全局最优的邻域并展示了实验结果与基线集中式 SGD 和最近提出的分布式 SGD 算法的比较效率。
Jun, 2020
本文提出了一种名为 AsySVRG 的快速异步并行 SGD 方法,能够在收敛速度和计算成本方面优于现有的 Hogwild!等最先进的并行 SGD 方法。
本文研究并发训练中 Stochastic Gradient Descent 算法的收敛性,提出了在异步共享内存模型下的新收敛界限,同时指出了最大延迟和算法收敛速度之间的基本权衡关系。
Mar, 2018