这篇论文介绍了一种统一的收敛性分析方法,涵盖了许多分散式随机梯度下降方法,具有计算成本低、数据本地性和沟通效率等优点,并包括本地随机梯度下降更新和自适应网络拓扑上的同步和成对传递更新,我们推导了光滑(凸和非凸)问题的通用收敛率,并在不同的数据分布和 iid 数据设置下进行了插值。
Mar, 2020
本文利用现有的一阶数据异质性假设,为本地 SGD 提供了新的下界,显示了这些假设不足以证明本地更新步骤的有效性。此外,在相同的假设下,我们证明了加速小批量 SGD 的极小 - 极大优化性质,完全解决了几个问题类的分布式优化。我们的结果强调了需要更好的数据异质性模型,以了解本地 SGD 在实践中的有效性。为此,我们考虑了高阶平滑性和异质性假设,并提供了新的上界,暗示了当数据异质性较低时,本地 SGD 优于小批量 SGD。
May, 2024
本文旨在研究在异构样本上进行非凸优化的联邦分布式学习,具体而言,我们将分析分布式方法相对于均匀样本中的隐含方差减少特性在异构样本中的应用,并证明其在广义的非凸和条件下的收敛性与最优性.
Oct, 2019
本研究提出了一个通用框架,用于统一集中式和分布式场景下的多个基于梯度的随机优化方法,通过引入一个增光图,设计了一种合适的拓扑结构,使得 VR 和 GT 方法能够有效消除设备内外的数据异质性,并提供了一种统一的收敛分析。
Jul, 2022
本论文证明了局部随机梯度下降算法在凸问题上能够以与小批量随机梯度下降算法相同的速率收敛,并且与工人数量和小批量大小呈线性加速关系,其中通信轮数可以减少长达 T ^ {1/2} 个因子。
May, 2018
该论文提出了一种统一框架,用于在凸性和强凸性条件下分析本地 SGD 方法,适用于监督机器学习模型的分布式 / 联邦训练。作为该框架的应用,作者开发了多个新型优化器,特别是开发了第一个线性收敛的本地 SGD 方法,不需要任何数据同质性或其他强假设。
Nov, 2020
本文研究异构分布共享的随机梯度下降优化问题,通过对比 Local SGD 和 Minibatch SGD,得到加速的 Minibatch SGD 是解决高异质性问题的最优方法,并提出了第一个比 Minibatch SGD 更好的 Local SGD 的上界解。
Jun, 2020
为了减少大规模机器学习应用中分布式平台训练过程中的通信成本,我们提出了一种分布式层次平均随机梯度下降(Hier-AVG)算法,该算法采用局部平均,通过引入不频繁的全局平均来实现。实验结果表明,与其他算法相比,采用 Hier-AVG 可以实现更快的训练结果,而仍能达到更好的测试精度。
Mar, 2019
本文提出了一种名为 local SGDA 的算法来缓解分布式学习中的通信开销,可在广泛的分布式 minmax 优化问题下实现可证明的收敛性和更少的通信次数。
Feb, 2021
本文旨在将局部训练技术与自适应方法相结合,以开发高效的分布式学习方法,并通过训练神经网络实验验证了方法的性能。
Jun, 2024