利用损失函数的二阶信息加速收敛的本地随机梯度下降
本论文证明了局部随机梯度下降算法在凸问题上能够以与小批量随机梯度下降算法相同的速率收敛,并且与工人数量和小批量大小呈线性加速关系,其中通信轮数可以减少长达 T ^ {1/2} 个因子。
May, 2018
本文利用现有的一阶数据异质性假设,为本地 SGD 提供了新的下界,显示了这些假设不足以证明本地更新步骤的有效性。此外,在相同的假设下,我们证明了加速小批量 SGD 的极小 - 极大优化性质,完全解决了几个问题类的分布式优化。我们的结果强调了需要更好的数据异质性模型,以了解本地 SGD 在实践中的有效性。为此,我们考虑了高阶平滑性和异质性假设,并提供了新的上界,暗示了当数据异质性较低时,本地 SGD 优于小批量 SGD。
May, 2024
本文研究了局部 SGD(也称为并行 SGD 和联邦平均),一个自然且常用的随机分布式优化方法。在凸设置中,我们证明了局部 SGD 严格优于小批量 SGD,并且加速局部 SGD 在凸二次目标上是最小极值最优的。同时,我们还提供了总体上至少有时优于小批量 SGD 的第一个保证,并展示了局部 SGD 存在一种性能下限,比小批量 SGD 保证更差。
Feb, 2020
本文提出了一种后局部随机梯度下降(SGD)方法,并通过标准基准测试表明,相比大批量训练,该方法显著提高了模型的泛化性能,同时保持相同的效率和可扩展性。此外,本文对一系列局部 SGD 变体的通信效率与性能权衡进行了广泛的研究。
Aug, 2018
本文研究异构分布共享的随机梯度下降优化问题,通过对比 Local SGD 和 Minibatch SGD,得到加速的 Minibatch SGD 是解决高异质性问题的最优方法,并提出了第一个比 Minibatch SGD 更好的 Local SGD 的上界解。
Jun, 2020
本文研究分布式学习场景中,M 台机器与参数服务器进行交互,以最小化公共目标函数。我们专注于异构情况,其中不同的机器可能从不同的数据分布中获取样本,设计出第一个本地更新方法,可以证明优于两种最突出的分布式基线:Minibatch-SGD 和 Local-SGD。我们的方法核心是缓慢的查询技术,我们将其定制为分布式环境,从而更好地缓解本地更新所引起的偏差。
Apr, 2023
本研究提出了一种名为 LD-SGD 的算法,该算法结合了本地更新和分散式通信,提供了分析框架,并给出了收敛的充分条件。该框架为分散式优化设计了更新方案,并具有理论和实际的通信优化效果,从而在分散式设置中提高了通信效率。
Oct, 2019
该论文提出了一种统一框架,用于在凸性和强凸性条件下分析本地 SGD 方法,适用于监督机器学习模型的分布式 / 联邦训练。作为该框架的应用,作者开发了多个新型优化器,特别是开发了第一个线性收敛的本地 SGD 方法,不需要任何数据同质性或其他强假设。
Nov, 2020
本文基于随机微分方程(SDE)模型解释了为什么(和何时)局部 SGD 具有更好的泛化性能,并证实具有较小的学习率和足够长的训练时间是取得泛化性能提升的必要条件。
Mar, 2023