异构数据本地 GD 初步分析

MMSep, 2019

First Analysis of Local GD on Heterogeneous Data

Ahmed Khaled, Konstantin Mishchenko, Peter Richtárik

TL;DR本文首次对局部梯度下降进行收敛性分析，用于平滑和凸但任意函数的平均值最小化问题，在联邦学习中涉及隐私数据和异构性。我们证明在低精度情况下，该方法的通信复杂度与梯度下降相同。

Abstract

We provide the first convergence analysis of local gradient descent for minimizing the average of smooth and convex but otherwise arbitrary functions. Problems of this form and →

convergence analysis local gradient descent smooth functions convex functions federated learning

发现论文，激发创造

联邦学习中局部下降方法的收敛性

本文旨在研究在异构样本上进行非凸优化的联邦分布式学习，具体而言，我们将分析分布式方法相对于均匀样本中的隐含方差减少特性在异构样本中的应用，并证明其在广义的非凸和条件下的收敛性与最优性.

Oct, 2019

从本地 SGD 到本地定点方法的联邦学习

本研究探讨了在分布式环境中使用固定步数和随机计算两种策略来实现平均操作符的固定点，以适应联邦学习等需要，经过收敛性分析和实验证明了我们方法的优势。

Apr, 2020

局部随机梯度下降上升：收敛分析与通信效率

本文提出了一种名为 local SGDA 的算法来缓解分布式学习中的通信开销，可在广泛的分布式 minmax 优化问题下实现可证明的收敛性和更少的通信次数。

Feb, 2021

基于间歇通信的分布异构学习中局部 SGD 的局限性与潜力

本文利用现有的一阶数据异质性假设，为本地 SGD 提供了新的下界，显示了这些假设不足以证明本地更新步骤的有效性。此外，在相同的假设下，我们证明了加速小批量 SGD 的极小 - 极大优化性质，完全解决了几个问题类的分布式优化。我们的结果强调了需要更好的数据异质性模型，以了解本地 SGD 在实践中的有效性。为此，我们考虑了高阶平滑性和异质性假设，并提供了新的上界，暗示了当数据异质性较低时，本地 SGD 优于小批量 SGD。

May, 2024

局部 SGD：统一理论和新高效方法

该论文提出了一种统一框架，用于在凸性和强凸性条件下分析本地 SGD 方法，适用于监督机器学习模型的分布式 / 联邦训练。作为该框架的应用，作者开发了多个新型优化器，特别是开发了第一个线性收敛的本地 SGD 方法，不需要任何数据同质性或其他强假设。

Nov, 2020

异构分布式学习中的小批量对比本地 SGD

本文研究异构分布共享的随机梯度下降优化问题，通过对比 Local SGD 和 Minibatch SGD，得到加速的 Minibatch SGD 是解决高异质性问题的最优方法，并提出了第一个比 Minibatch SGD 更好的 Local SGD 的上界解。

Jun, 2020

分散梯度下降的收敛性

本文研究了基于对等网络的去中心化梯度下降方法，分析了参数收敛性与收敛速率，提出了分布式基 pursuit 迭代方法及其收敛性分析。

Oct, 2013

去中心化在线随机非凸优化的收敛分析改进

本文研究了节点网络上的去中心化在线随机非凸优化。通过将梯度跟踪技术集成到去中心化随机梯度下降中，我们证明了该算法具有一定的优势，并分析了其有效性和性能。同时，对于满足 Polyak-Lojasiewics 条件的全局非凸函数，我们确定了 GT-DSGD 的线性收敛性，并且在几乎每条路径上具有最优的全局亚线性收敛速度。

Aug, 2020

关于联邦学习的原则性本地优化方法

本篇论文以三个方向推动本地方法的理论基础：（1）建立 FedAvg 的尖锐界限；（2）提出了 FedAvg 的有原则的加速方法 FedAc；（3）研究了扩展经典平滑设置的 Federated Composite Optimization 问题。

Jan, 2024

关于异构数据下联邦平均的非常高效性

这篇论文解释了之前理论预测与实际表现矛盾的问题，发现数据异质性对于 FedAvg 算法的收敛效率影响要小于之前理论预测，通过引入新的指标（即平均漂移值）重新理论分析 FedAvg 算法，发现其在实际应用中的表现能够和同构的数据集一样并获得了成功。

Jun, 2022