慢而稳定的梯度也能取得胜利
本文提出了一种改进的异步 SGD 算法,通过梯度陈旧程度对学习速率进行调节,以提高其稳定性和收敛速度,在 CIFAR10 和 Imagenet 数据集上进行了实验验证,并证明了该算法的优越性。
Nov, 2015
本文提出了一种基于异步随机梯度下降的快速分布式机器学习算法,采用变量规约技术,可使用常量的学习率,并保证线性收敛到最优解,在 Google 云计算平台上的实验表明,该算法在墙时钟时间和解的质量方面优于最先进的分布式异步算法。
Aug, 2015
基于随机时滞微分方程(SDDE)和概率到达梯度泊松近似,提出了统一框架来分析和优化异步分布式随机梯度下降(ASGD)的收敛性,揭示了 ASGD 的阻尼系数、延迟统计特性和收敛条件,以及调度策略的优化。同时表明增加激活的工作人员数量并不一定加速分布式随机梯度下降,而较大程度的时滞将导致其发散。通过数值实验验证了 SDDE 框架在复杂学习任务中具有的潜力。
Jun, 2024
本文研究了分布式训练深度学习模型时采用同步优化的可行性,发现同步优化虽然会浪费一些等待时间,但采用备用工作者的方式可以避免异步噪声并加速收敛,同时能够在保证准确性的前提下提高测试准确率。
Apr, 2016
该研究提出了一种名为 Gap-Aware(GA)的新的异步 - 分布式方法,通过线性惩罚梯度滞后度量 Gap 并在大量工作者的情况下表现良好,即使在异步环境中应用 GA,动量仍然有益处。
Sep, 2019
异步类型算法在异构设置中被分析,提出了统一的收敛理论,并介绍了基于工人洗牌的新型异步方法,数值评估支持理论发现并展示了该方法的良好实际性能。
Oct, 2023
本文研究并发训练中 Stochastic Gradient Descent 算法的收敛性,提出了在异步共享内存模型下的新收敛界限,同时指出了最大延迟和算法收敛速度之间的基本权衡关系。
Mar, 2018
本文提出了一种用于并行同步随机梯度下降 (SGD) 的方法,通过固定工作节点的计算时间并组合所有节点的不同贡献,优化并提高了计算效率,有效地解决了严重拖慢收敛速度的 straggler 问题。
Oct, 2018
本文提出了一种异步的分布式随机梯度下降算法(AD-PSGD)来解决异构环境下常用的同步算法(如 AllReduce-SGD)和参数服务器 suffer from 的问题,并且在理论分析和经验结果上证明了 AD-PSGD 在异构环境下具有良好的收敛速度和通信效率优势。
Oct, 2017