去中心化深度学习的本地异步随机梯度下降
本文提出了一种异步的分布式随机梯度下降算法(AD-PSGD)来解决异构环境下常用的同步算法(如 AllReduce-SGD)和参数服务器 suffer from 的问题,并且在理论分析和经验结果上证明了 AD-PSGD 在异构环境下具有良好的收敛速度和通信效率优势。
Oct, 2017
本文提出了一种基于异步随机梯度下降的快速分布式机器学习算法,采用变量规约技术,可使用常量的学习率,并保证线性收敛到最优解,在 Google 云计算平台上的实验表明,该算法在墙时钟时间和解的质量方面优于最先进的分布式异步算法。
Aug, 2015
该研究比较了同步和异步随机梯度下降的收敛性,针对 ImageNet 分类问题的训练,在 32 个节点以下异步 SGD 包括弹性平均和 gossiping 能更快收敛,而同步 SGD 在 100 个节点以下能更好地扩展。
Nov, 2016
研究异步传播模型下去中心化优化算法的收敛性,提出一种称为 SwarmSGD 的变量 SGD 算法,使用多维负载平衡过程连接进行分析,并在超级计算环境中表现出比以前的去中心化算法和大批次 SGD 更好的性能。
Oct, 2019
本文提出了一种改进的异步 SGD 算法,通过梯度陈旧程度对学习速率进行调节,以提高其稳定性和收敛速度,在 CIFAR10 和 Imagenet 数据集上进行了实验验证,并证明了该算法的优越性。
Nov, 2015
分布机器学习中的去中心化和异步通信是提高通信复杂性的两种流行技术,而将这两种技术结合起来仍然是一个挑战。本文引入了一种名为 AGRAF SGD 的异步 SGD 算法框架,它包括了许多流行算法的异步版本,如 SGD、去中心化 SGD、本地 SGD 和 FedBuff,通过放松通信和计算假设,我们提供了比以前的去中心化异步工作更温和的收敛性速度,同时仍然恢复或甚至改善了所有涵盖算法的最佳结果。
Nov, 2023
该论文旨在通过 LASG(一种新的随机梯度下降方法)解决通信效率低下的分布式机器学习问题,并在实验中展示可以节省大量的通信成本。
Feb, 2020
在通信约束之下的并行计算环境下研究深度学习的随机优化问题,提出了一种新的基于弹性力的算法,可以使本地变量更加波动以允许更多的探索,同时减少了本地工作者与主节点之间的通信,从而加快了训练速度和提高了效率
Dec, 2014
该论文提出了一种异步分布式训练方法,利用互联网连接的具有有限资源的普通异构个人电脑的计算能力,在大型现代深度学习模型上取得了良好的性能指标,通过将计算节点高效地组织成具有相似数据传输速度和计算能力的集群,避免了每个节点承载整个模型,并采用并行多环全局参数平均方法实现全局参数平均。同时,论文在异步 SGD 损失函数上进行了解析,推导出了收敛速度的最优复杂度以及参与集群数量的线性加速和时滞参数的界.
Jan, 2024
本文提出了一种名为 local SGDA 的算法来缓解分布式学习中的通信开销,可在广泛的分布式 minmax 优化问题下实现可证明的收敛性和更少的通信次数。
Feb, 2021