非凸分散梯度下降

Aug, 2016

On Nonconvex Decentralized Gradient Descent

Jinshan Zeng, Wotao Yin

TL;DR本研究探讨了去中心化算法在非凸一致优化中的应用和属性，特别针对非光滑函数和非凸集的情况，提出了 Prox-DGD 算法，通过现有的 convex setting 证明其误差收敛性。

Abstract

consensus optimization has received considerable attention in recent years. A number of decentralized algorithms have been proposed for {convex} consensus optimization. However, to the behaviors or consensus \emp

consensus optimization decentralized algorithms nonconvex optimization dgd prox-dgd

发现论文，激发创造

一种精确量子化的分散梯度下降算法

研究去中心化共识优化中量化对优化带来的影响，并提出了一种基于梯度下降的算法，证明算法在标准强凸和平滑假设下可实现消失的均值解误差，并通过模拟结果验证了理论收敛速度与实际结果的紧密一致性。

Jun, 2018

去中心化在线随机非凸优化的收敛分析改进

本文研究了节点网络上的去中心化在线随机非凸优化。通过将梯度跟踪技术集成到去中心化随机梯度下降中，我们证明了该算法具有一定的优势，并分析了其有效性和性能。同时，对于满足 Polyak-Lojasiewics 条件的全局非凸函数，我们确定了 GT-DSGD 的线性收敛性，并且在几乎每条路径上具有最优的全局亚线性收敛速度。

Aug, 2020

解密 SGD 非凸收敛的神话与传说

通过分析，本文展示了当总迭代次数足够大时，随机梯度下降法（SGD）的最终迭代中存在一个 ε- 稳定点，这是一个比现有结果更强的结论，并且可以在 SGD 的最终迭代中度量 ε- 稳定点的密度，同时对于目标函数和随机梯度的边界条件，我们恢复了经典的 O (1/√T) 渐进速率，此分析结果解决了与 SGD 的非凸收敛性相关的某些迷思和传说，并提出了一些有启发性的研究方向。

Oct, 2023

自适应近端梯度方法用于凸优化

本文探讨了凸优化中的两个基本一阶算法，梯度下降法（GD）和近端梯度法（ProxGD）。我们着重于通过利用光滑函数的局部曲率信息，使这些算法完全自适应。我们提出了基于观察到的梯度差异的 GD 和 ProxGD 的自适应版本，因此没有额外的计算成本。此外，我们证明了方法的收敛性，仅需假设梯度在局部利普希茨连续。此外，所提出的版本允许使用比 [MM20] 最初建议的更大的步长。

Aug, 2023

非凸世界中 SGD 的更好理论

本篇论文使用类似于期望光滑性假设的新方法来研究随机梯度下降法在非凸优化中的收敛率，并在考虑多种采样策略和小批量大小的情况下，探讨有限和优化问题的影响。

Feb, 2020

去中心化随机次梯度法用于非光滑非凸优化

我们集中研究具有非凸非光滑目标函数的分布式优化问题，特别是非光滑神经网络的分布式训练。我们引入一个统一框架，名为 DSM，用于分析分布式随机次梯度方法的全局收敛性。我们证明了在温和条件下，我们提出的框架的全局收敛性，通过建立生成的序列渐近逼近其相关微分纳入的轨迹。此外，我们证明了我们提出的框架包括各种现有的高效分布式次梯度方法，包括分布式随机次梯度下降（DSGD），带有梯度跟踪技术的 DSGD（DSGD-T）和带有动量的 DSGD（DSGDm）。此外，我们引入 SignSGD，使用符号映射来规范 DSGDm 中的更新方向，并证明其包含在我们提出的框架中。因此，我们的收敛结果首次证明了这些方法在应用于非光滑非凸目标时的全局收敛性。初步的数值实验表明，我们提出的框架在非光滑神经网络的训练中产生了高效的分布式次梯度方法，具有收敛性保证。

Mar, 2024

超越凸性：随机拟凸优化

本文研究随机版归一化梯度下降算法，并证明了该算法在优化拥有拟凸和局部 Lipschitz 性质的函数时，能够保证收敛到全局最优解。与标准的随机梯度下降算法不同的是，该算法要求使用最小的小批量大小，以避免梯度爆炸等问题。

Jul, 2015

KŁ几何下的近端梯度下降 - 上升算法：可变收敛

本文研究了一种更为广泛的两人博弈非凸强凹优化的收敛性，在 K-L 参数化几何全谱上，证明了 Proximal-GDA 算法的收敛速率是不同的，这是首个关于非凸极小极大优化变量收敛的理论结果。

Feb, 2021

非凸分散学习的统一细化收敛分析

本研究探讨了解决分布式优化问题的多种方法，包括 EXTRA、Exact-Diffusion/D^2 和梯度跟踪算法等，研究表明这些方法在网络拓扑敏感性上相对于 DSGD 较弱。该研究针对此问题提出了一种统一的分布式算法 SUDA，并建立了 SUDA 的收敛性，实验结果证明该算法对网络拓扑较为鲁棒。

Oct, 2021

机器学习的非凸优化：梯度、随机性和鞍点

本文研究梯度下降和随机梯度下降等算法在机器学习中的应用，分析了这些算法在非凸优化问题中收敛到驻点的情况，提出了变形的算法可以更高效地避免出现维数灾难，从而沟通了理论和实践。

Feb, 2019