本文研究并发训练中 Stochastic Gradient Descent 算法的收敛性,提出了在异步共享内存模型下的新收敛界限,同时指出了最大延迟和算法收敛速度之间的基本权衡关系。
Mar, 2018
我们提供了分布式和异步随机梯度下降(DASGD)的收敛速度分析,并证明了它对于一系列条件是有效的。
Sep, 2023
本研究分析同步和异步分布式随机梯度下降算法的误差和训练时间之间的权衡,考虑到随机拖延延迟,提出了逐渐变化同步性的方法,并在 CIFAR10 数据集上表现良好。
Mar, 2020
本研究探讨了两种异步并行随机梯度下降的实现方式,并证明了它们的收敛率均为 O (1 / 根号 K),且在工作者数受到限制的情况下可实现线性加速。
Jun, 2015
本文提出了一种改进的异步 SGD 算法,通过梯度陈旧程度对学习速率进行调节,以提高其稳定性和收敛速度,在 CIFAR10 和 Imagenet 数据集上进行了实验验证,并证明了该算法的优越性。
Nov, 2015
本文提出了一种基于异步随机梯度下降的快速分布式机器学习算法,采用变量规约技术,可使用常量的学习率,并保证线性收敛到最优解,在 Google 云计算平台上的实验表明,该算法在墙时钟时间和解的质量方面优于最先进的分布式异步算法。
Aug, 2015
本文提出了一种异步的分布式随机梯度下降算法(AD-PSGD)来解决异构环境下常用的同步算法(如 AllReduce-SGD)和参数服务器 suffer from 的问题,并且在理论分析和经验结果上证明了 AD-PSGD 在异构环境下具有良好的收敛速度和通信效率优势。
Oct, 2017
探究计算机体系结构和日益增长的数据集规模增大了异步并行优化算法在机器学习领域中的必要性,以及解决其理论分析的难题,提出一种新的 “扰动迭代” 框架,通过对三种不同的异步并行优化算法的实验分析,得出以往的假设存在问题,提高了算法的理论性能,以及研究了理论分析中的重要参数 “重叠常数” 与之前猜想不同,其复杂性更高。
Jan, 2018
研究异步随机梯度下降法在无界梯度延迟的非凸优化问题中的收敛性能,证明了 Async-SGD 和其变体 Async-SGDI 的收敛速度,建立了一个异步随机梯度下降法的充分条件,并将两个梯度延迟模型作为其特殊情况包括在内,得出了一个新的未考虑的延迟模型。
May, 2018
本文提出了一种适用于解决有限和优化问题的通用洗牌型梯度方法的统一收敛分析,涵盖了许多已知的变体,并在非凸和凸设置中提出了新的非渐近和渐近收敛速度。
Feb, 2020