该研究比较了同步和异步随机梯度下降的收敛性,针对 ImageNet 分类问题的训练,在 32 个节点以下异步 SGD 包括弹性平均和 gossiping 能更快收敛,而同步 SGD 在 100 个节点以下能更好地扩展。
Nov, 2016
本研究分析同步和异步分布式随机梯度下降算法的误差和训练时间之间的权衡,考虑到随机拖延延迟,提出了逐渐变化同步性的方法,并在 CIFAR10 数据集上表现良好。
Mar, 2020
本文提出了一种基于异步随机梯度下降的快速分布式机器学习算法,采用变量规约技术,可使用常量的学习率,并保证线性收敛到最优解,在 Google 云计算平台上的实验表明,该算法在墙时钟时间和解的质量方面优于最先进的分布式异步算法。
Aug, 2015
我们提出了一种介于同步和异步方法之间的混合数据并行性方法,使用这两种方法训练神经网络,通过适当选择阈值函数来逐渐从异步转为同步的参数聚合,我们证明在一定时间范围内,我们的混合方法优于异步和同步方法。
Jun, 2024
本文提出了一种用于并行同步随机梯度下降 (SGD) 的方法,通过固定工作节点的计算时间并组合所有节点的不同贡献,优化并提高了计算效率,有效地解决了严重拖慢收敛速度的 straggler 问题。
Oct, 2018
本文提出了一种改进的异步 SGD 算法,通过梯度陈旧程度对学习速率进行调节,以提高其稳定性和收敛速度,在 CIFAR10 和 Imagenet 数据集上进行了实验验证,并证明了该算法的优越性。
Nov, 2015
本文主要介绍分布式深度神经网络训练算法的通信拓扑设计选择及异步去中心化算法如何通过 LASGD 实现模型同步,实验证明 LASGD 相较于 SGD 及业界领先的基于八卦协议的算法加速了大规模图像分类数据集 ImageNet 的训练速度。
Mar, 2022
在通信约束之下的并行计算环境下研究深度学习的随机优化问题,提出了一种新的基于弹性力的算法,可以使本地变量更加波动以允许更多的探索,同时减少了本地工作者与主节点之间的通信,从而加快了训练速度和提高了效率
Dec, 2014
本文提出了一种高效的分布式随机优化方法,通过结合适应性与方差约减技术,从而实现任何串行在线学习算法的并行计算,能够在不需要光滑参数的先验知识的情况下实现最优收敛速率,同时通过 Spark 分布式框架的实现能够对大规模逻辑回归问题进行高效处理。
Feb, 2018
该文主要研究基于梯度的优化算法中的延迟随机梯度信息的收敛性,以及如何应用于分布式优化算法中克服通信瓶颈和同步要求的问题,结果表明在平滑随机问题中,延迟是渐近可以忽略的,且能达到最优收敛效果。
Apr, 2011