非光滑、非凸问题的近距离引导随机次梯度方法
本文研究随机算法优化非凸、非光滑的有限和问题。针对此问题,本文提出快速的随机算法,可获得常数迷你批量的收敛性。本文还使用这些算法的变种,证明了比批量近端梯度下降更快的收敛性,并在非凸、非光滑函数的一个子类中证明全局线性收敛率。
May, 2016
本文提出一种基于变量规约的Proximal 随机梯度下降算法(ProxSVRG+), 该算法在非凸性和非光滑性优化问题上具有更好的性能, 并在收敛性分析方面比之前的算法更加全面和普适性更强。
Feb, 2018
本文提出一族算法通过简单的随机模型样本和优化方法,成功的减少了目标函数。我们展示出,合理的近似质量和模型的正则性下,此类算法将自然的稳定度衡量推向0,该衰减速度为O(k^(-1/4)),基于此原理,我们为随机的近端子梯度法,近端次梯度法以及规则化的高斯牛顿法等提供了第一个复杂性保证。
Mar, 2018
该论文提出了基于随机条件梯度方法的优化问题求解算法,用于解决大规模维度下的凸函数、连续子模型等多种问题,并证明了当问题维度高时,该方法较与传统的随机梯度下降法更加稳定,同时计算时间复杂度也得到了有效降低。
Apr, 2018
本文介绍了一种随机子梯度方法,该方法结合了动量项,能够在一类广泛意义下的非光滑、非凸和受约束的优化问题中建立一个特殊的李亚普诺夫函数,实现快速收敛。
Feb, 2020
本文针对强凸但潜在不光滑非Lipschitz的优化问题,提出了新的等价的对偶描述,使得 $O(1/T)$ 收敛保证适用于几乎任何步长选择和一系列非Lipschitz病态问题,并提供了优化证书。
May, 2023
本研究论文探讨了随机梯度下降(SGD)方法及其变种在训练非光滑激活函数构建的神经网络中的收敛性质,提出了一种新的框架,分别为更新动量项和变量分配不同的时间尺度。在一些温和条件下,我们证明了我们提出的框架在单一时间尺度和双时间尺度情况下的全局收敛性。我们展示了我们提出的框架包含了许多著名的SGD类型方法,包括heavy-ball SGD、SignSGD、Lion、normalized SGD和clipped SGD。此外,当目标函数采用有限和形式时,我们证明了基于我们提出的框架的这些SGD类型方法的收敛性质。特别地,在温和的假设条件下,我们证明了这些SGD类型方法以随机选择的步长和初始点找到了目标函数的Clarke稳定点。初步的数值实验表明了我们分析的SGD类型方法的高效性。
Jul, 2023
本文提出了一种用于解决非凸、非光滑优化问题的近端次梯度方法(Prox-SubGrad),并通过建立一些子梯度上界及其关系,简化和统一了收敛速度的证明方案,同时还提出了一些新的随机子梯度上界条件,并为随机子梯度方法(Sto-SubGrad)建立了收敛和迭代复杂度。
Aug, 2023
我们集中研究具有非凸非光滑目标函数的分布式优化问题,特别是非光滑神经网络的分布式训练。我们引入一个统一框架,名为DSM,用于分析分布式随机次梯度方法的全局收敛性。我们证明了在温和条件下,我们提出的框架的全局收敛性,通过建立生成的序列渐近逼近其相关微分纳入的轨迹。此外,我们证明了我们提出的框架包括各种现有的高效分布式次梯度方法,包括分布式随机次梯度下降(DSGD),带有梯度跟踪技术的DSGD(DSGD-T)和带有动量的DSGD(DSGDm)。此外,我们引入SignSGD,使用符号映射来规范DSGDm中的更新方向,并证明其包含在我们提出的框架中。因此,我们的收敛结果首次证明了这些方法在应用于非光滑非凸目标时的全局收敛性。初步的数值实验表明,我们提出的框架在非光滑神经网络的训练中产生了高效的分布式次梯度方法,具有收敛性保证。
Mar, 2024
本文中我们考虑在闭凸子集上最小化一个非光滑非凸的目标函数$f(x)$,同时满足附加的非光滑非凸约束$c(x) = 0$。我们开发了一个统一的框架来发展基于Lagrangian的方法,在每次迭代中通过某些子梯度方法对原始变量进行单步更新。这些子梯度方法被“嵌入”到我们的框架中,以黑盒更新原始变量的方式加以合并。我们证明了在温和条件下,我们提出的框架继承了这些嵌入子梯度方法的全局收敛性保证。此外,我们证明了我们的框架可以扩展到解决具有期望约束的约束优化问题。基于我们提出的框架,我们展示了一系列现有的随机子梯度方法,包括proximal SGD、proximal momentum SGD和proximal ADAM,可以嵌入到基于Lagrangian的方法中。对深度学习任务的初步数值实验表明,我们提出的框架可以为非凸非光滑约束优化问题提供高效的Lagrangian-based方法变体,并具有收敛性保证。
Apr, 2024