去中心化随机次梯度法用于非光滑非凸优化

Mar, 2024

去中心化随机次梯度法用于非光滑非凸优化

Decentralized Stochastic Subgradient Methods for Nonsmooth Nonconvex Optimization

Siyuan Zhang, Nachuan Xiao, Xin Liu

TL;DR我们集中研究具有非凸非光滑目标函数的分布式优化问题，特别是非光滑神经网络的分布式训练。我们引入一个统一框架，名为DSM，用于分析分布式随机次梯度方法的全局收敛性。我们证明了在温和条件下，我们提出的框架的全局收敛性，通过建立生成的序列渐近逼近其相关微分纳入的轨迹。此外，我们证明了我们提出的框架包括各种现有的高效分布式次梯度方法，包括分布式随机次梯度下降（DSGD），带有梯度跟踪技术的DSGD（DSGD-T）和带有动量的DSGD（DSGDm）。此外，我们引入SignSGD，使用符号映射来规范DSGDm中的更新方向，并证明其包含在我们提出的框架中。因此，我们的收敛结果首次证明了这些方法在应用于非光滑非凸目标时的全局收敛性。初步的数值实验表明，我们提出的框架在非光滑神经网络的训练中产生了高效的分布式次梯度方法，具有收敛性保证。

Abstract

In this paper, we concentrate on decentralized optimization problems with nonconvex and nonsmooth objective functions, especially on the decentralized training of nonsmooth neural networks. We introduce a unified

发现论文，激发创造

非光滑、非凸问题的近距离引导随机次梯度方法

本文介绍了一种基于随机投影次梯度方法的弱凸（即均匀逼近正则）非光滑非凸函数的算法，并通过简单证明证明这种方法与用于光滑非凸问题的随机梯度方法具有相同的收敛速度；这似乎是第一个针对弱凸函数类的随机次（或确定性）梯度法的收敛速度分析。

Jul, 2017

一种联合梯度估计和跟踪的分散非凸优化样本和通信复杂度改进方法

该文章提出了一种名为D-GET的去中心化随机算法，可以提高大规模机器学习中高度非凸问题的性能，同时在减少多节点通信轮数的同时，访问最少量的局部数据样本，以实现确定性有限和在线问题的小样本复杂度和通信复杂度，并优于现有方法的复杂度。

Oct, 2019

带动量的随机梯度方法收敛于非光滑非凸优化问题

本文介绍了一种随机子梯度方法，该方法结合了动量项，能够在一类广泛意义下的非光滑、非凸和受约束的优化问题中建立一个特殊的李亚普诺夫函数，实现快速收敛。

Feb, 2020

去中心化在线随机非凸优化的收敛分析改进

本文研究了节点网络上的去中心化在线随机非凸优化。通过将梯度跟踪技术集成到去中心化随机梯度下降中，我们证明了该算法具有一定的优势，并分析了其有效性和性能。同时，对于满足Polyak-Lojasiewics条件的全局非凸函数，我们确定了GT-DSGD的线性收敛性，并且在几乎每条路径上具有最优的全局亚线性收敛速度。

Aug, 2020

分散随机梯度下降的稳定性和泛化能力

本论文提出了分散化随机梯度下降法的新方法，并使用（非）凸优化理论建立了第一个针对分散化随机梯度下降法的稳定性和泛化保证。我们的理论结果基于少数常见且温和的假设，并揭示分散化将首次降低SGD的稳定性。通过使用多种分散化设置和基准机器学习模型，证实了我们的理论发现。

Feb, 2021

非凸-PL极小极大问题的近最优分散动量法

提出了 DM-GDA 方法，使用动量法更新变量和估计随机梯度，并证明在非凸情况下找到具有稳定解的解决方案的梯度复杂度接近最优，可用于在网络上进行分布式的 Nonconvex-PL 随机极小化问题的优化。

Apr, 2023

去中心化随机极小极大优化算法是否能以线性收敛于有限和的非凸非凹问题？

本文针对分布式算法模型中面临的发散问题，提出了两种基于随机梯度下降的算法，并证明了其具有良好的收敛性能，这是首个针对分布式情况下的凸-非凸问题的线性收敛性的成果。

Apr, 2023

非光滑非凸优化中随机次梯度方法的收敛性保证

本研究论文探讨了随机梯度下降（SGD）方法及其变种在训练非光滑激活函数构建的神经网络中的收敛性质，提出了一种新的框架，分别为更新动量项和变量分配不同的时间尺度。在一些温和条件下，我们证明了我们提出的框架在单一时间尺度和双时间尺度情况下的全局收敛性。我们展示了我们提出的框架包含了许多著名的SGD类型方法，包括heavy-ball SGD、SignSGD、Lion、normalized SGD和clipped SGD。此外，当目标函数采用有限和形式时，我们证明了基于我们提出的框架的这些SGD类型方法的收敛性质。特别地，在温和的假设条件下，我们证明了这些SGD类型方法以随机选择的步长和初始点找到了目标函数的Clarke稳定点。初步的数值实验表明了我们分析的SGD类型方法的高效性。

Jul, 2023

基于拉格朗日法的非平滑非凸优化方法的开发

本文中我们考虑在闭凸子集上最小化一个非光滑非凸的目标函数$f(x)$，同时满足附加的非光滑非凸约束$c(x) = 0$。我们开发了一个统一的框架来发展基于Lagrangian的方法，在每次迭代中通过某些子梯度方法对原始变量进行单步更新。这些子梯度方法被“嵌入”到我们的框架中，以黑盒更新原始变量的方式加以合并。我们证明了在温和条件下，我们提出的框架继承了这些嵌入子梯度方法的全局收敛性保证。此外，我们证明了我们的框架可以扩展到解决具有期望约束的约束优化问题。基于我们提出的框架，我们展示了一系列现有的随机子梯度方法，包括proximal SGD、proximal momentum SGD和proximal ADAM，可以嵌入到基于Lagrangian的方法中。对深度学习任务的初步数值实验表明，我们提出的框架可以为非凸非光滑约束优化问题提供高效的Lagrangian-based方法变体，并具有收敛性保证。

Apr, 2024

分布式非光滑非凸随机优化的一阶和零阶在线优化视角

我们研究了非光滑非凸目标在分散随机优化中找到($\delta,\epsilon$)-稳定点的有限时间分析。我们提出了一种称为ME-DOL的新算法，并在不同环境中建立了样本复杂性。我们证明了该算法在光滑非凸目标中恢复了最优收敛速度的在线至非凸技术，并扩展了分析到非光滑设置，建立在随机平滑和Goldstein-次微分集的属性上。我们在一阶设置中建立了$O(\delta^{-1}\epsilon^{-3})$的样本复杂度，这是我们所知道的第一次对于分散非光滑非凸随机优化的有限时间保证（无弱凸性），与其最优集中对应。我们进一步证明了在不使用方差减少的零阶预言机设置时相同的速率。

Jun, 2024