AsGrad: 异步SGD算法的锐利统一分析
本文提出了一种基于异步随机梯度下降的快速分布式机器学习算法,采用变量规约技术,可使用常量的学习率,并保证线性收敛到最优解,在Google云计算平台上的实验表明,该算法在墙时钟时间和解的质量方面优于最先进的分布式异步算法。
Aug, 2015
本文研究并发训练中Stochastic Gradient Descent算法的收敛性,提出了在异步共享内存模型下的新收敛界限,同时指出了最大延迟和算法收敛速度之间的基本权衡关系。
Mar, 2018
研究异步随机梯度下降法在无界梯度延迟的非凸优化问题中的收敛性能,证明了Async-SGD和其变体Async-SGDI的收敛速度,建立了一个异步随机梯度下降法的充分条件,并将两个梯度延迟模型作为其特殊情况包括在内,得出了一个新的未考虑的延迟模型。
May, 2018
本研究分析同步和异步分布式随机梯度下降算法的误差和训练时间之间的权衡,考虑到随机拖延延迟,提出了逐渐变化同步性的方法,并在 CIFAR10 数据集上表现良好。
Mar, 2020
本文综述了近年来在大规模优化问题中应用的异步优化方法的最新发展,旨在提高计算资源利用率和收敛速度,在处理信息延迟、节点延迟等问题时,尤其是在随机优化方法中,异步更新方式具有更为优越的性能。
Jun, 2020
分布机器学习中的去中心化和异步通信是提高通信复杂性的两种流行技术,而将这两种技术结合起来仍然是一个挑战。本文引入了一种名为AGRAF SGD的异步SGD算法框架,它包括了许多流行算法的异步版本,如SGD、去中心化SGD、本地SGD和FedBuff,通过放松通信和计算假设,我们提供了比以前的去中心化异步工作更温和的收敛性速度,同时仍然恢复或甚至改善了所有涵盖算法的最佳结果。
Nov, 2023
在异步集中式分布式设置中,我们考虑非凸随机优化问题,其中来自工作节点到服务器的通信时间不可忽略,并且计算和通信时间可能对所有工作节点都不同。使用一种无偏压缩技术,我们开发了一种新方法-Shadowheart SGD,可以明显改善所有之前集中式方法的时间复杂性。此外,我们还证明了在压缩通信的集中式方法族中,Shadowheart SGD的时间复杂度是最优的。我们还考虑了双向设置,其中从服务器向工作节点的广播是非可忽略的,并开发了相应的方法。
Feb, 2024
基于随机时滞微分方程(SDDE)和概率到达梯度泊松近似,提出了统一框架来分析和优化异步分布式随机梯度下降(ASGD)的收敛性,揭示了ASGD的阻尼系数、延迟统计特性和收敛条件,以及调度策略的优化。同时表明增加激活的工作人员数量并不一定加速分布式随机梯度下降,而较大程度的时滞将导致其发散。通过数值实验验证了SDDE框架在复杂学习任务中具有的潜力。
Jun, 2024
本研究解决了在异构和随机计算时间条件下,最小化平滑非凸函数的期望问题。我们提出了一种新的异步随机梯度下降方法MindFlayer SGD,能有效应对随机计算时间的挑战,其理论与实证结果表明MindFlayer SGD在处理重尾噪声时优于现有方法,包括Rennala SGD。
Oct, 2024