本文提出了一种基于异步随机梯度下降的快速分布式机器学习算法,采用变量规约技术,可使用常量的学习率,并保证线性收敛到最优解,在 Google 云计算平台上的实验表明,该算法在墙时钟时间和解的质量方面优于最先进的分布式异步算法。
Aug, 2015
本研究分析同步和异步分布式随机梯度下降算法的误差和训练时间之间的权衡,考虑到随机拖延延迟,提出了逐渐变化同步性的方法,并在 CIFAR10 数据集上表现良好。
Mar, 2020
基于随机时滞微分方程(SDDE)和概率到达梯度泊松近似,提出了统一框架来分析和优化异步分布式随机梯度下降(ASGD)的收敛性,揭示了 ASGD 的阻尼系数、延迟统计特性和收敛条件,以及调度策略的优化。同时表明增加激活的工作人员数量并不一定加速分布式随机梯度下降,而较大程度的时滞将导致其发散。通过数值实验验证了 SDDE 框架在复杂学习任务中具有的潜力。
Jun, 2024
提出了一种新的异步随机梯度下降算法,通过利用梯度函数的泰勒展开和损失函数的快速近似海森矩阵,实现了延迟补偿,从而使 ASGD 的优化行为更接近于顺序 SGD。在 CIFAR-10 和 ImageNet 数据集上进行了评估,实验结果表明,DC-ASGD 优于同步 SGD 和异步 SGD,几乎接近于顺序 SGD 的性能。
Sep, 2016
本文提出了一种异步的分布式随机梯度下降算法(AD-PSGD)来解决异构环境下常用的同步算法(如 AllReduce-SGD)和参数服务器 suffer from 的问题,并且在理论分析和经验结果上证明了 AD-PSGD 在异构环境下具有良好的收敛速度和通信效率优势。
Oct, 2017
我们提供了分布式和异步随机梯度下降(DASGD)的收敛速度分析,并证明了它对于一系列条件是有效的。
Sep, 2023
该研究提出了一种名为 Gap-Aware(GA)的新的异步 - 分布式方法,通过线性惩罚梯度滞后度量 Gap 并在大量工作者的情况下表现良好,即使在异步环境中应用 GA,动量仍然有益处。
Sep, 2019
本文研究并发训练中 Stochastic Gradient Descent 算法的收敛性,提出了在异步共享内存模型下的新收敛界限,同时指出了最大延迟和算法收敛速度之间的基本权衡关系。
Mar, 2018
本文主要介绍分布式深度神经网络训练算法的通信拓扑设计选择及异步去中心化算法如何通过 LASGD 实现模型同步,实验证明 LASGD 相较于 SGD 及业界领先的基于八卦协议的算法加速了大规模图像分类数据集 ImageNet 的训练速度。
Mar, 2022
本文提出了一种利用异步单向通信范例的新型并行更新算法 ASGD,相较于现有方法,ASGD 具有更快(或至少相当)的收敛速度,接近于线性的缩放以及稳定的准确性,在大规模机器学习问题中具有应用前景。
May, 2015