非凸分散梯度下降
研究去中心化共识优化中量化对优化带来的影响,并提出了一种基于梯度下降的算法,证明算法在标准强凸和平滑假设下可实现消失的均值解误差,并通过模拟结果验证了理论收敛速度与实际结果的紧密一致性。
Jun, 2018
本文研究了节点网络上的去中心化在线随机非凸优化。通过将梯度跟踪技术集成到去中心化随机梯度下降中,我们证明了该算法具有一定的优势,并分析了其有效性和性能。同时,对于满足 Polyak-Lojasiewics 条件的全局非凸函数,我们确定了 GT-DSGD 的线性收敛性,并且在几乎每条路径上具有最优的全局亚线性收敛速度。
Aug, 2020
通过分析,本文展示了当总迭代次数足够大时,随机梯度下降法(SGD)的最终迭代中存在一个 ε- 稳定点,这是一个比现有结果更强的结论,并且可以在 SGD 的最终迭代中度量 ε- 稳定点的密度,同时对于目标函数和随机梯度的边界条件,我们恢复了经典的 O (1/√T) 渐进速率,此分析结果解决了与 SGD 的非凸收敛性相关的某些迷思和传说,并提出了一些有启发性的研究方向。
Oct, 2023
本文探讨了凸优化中的两个基本一阶算法,梯度下降法(GD)和近端梯度法(ProxGD)。我们着重于通过利用光滑函数的局部曲率信息,使这些算法完全自适应。我们提出了基于观察到的梯度差异的 GD 和 ProxGD 的自适应版本,因此没有额外的计算成本。此外,我们证明了方法的收敛性,仅需假设梯度在局部利普希茨连续。此外,所提出的版本允许使用比 [MM20] 最初建议的更大的步长。
Aug, 2023
我们集中研究具有非凸非光滑目标函数的分布式优化问题,特别是非光滑神经网络的分布式训练。我们引入一个统一框架,名为 DSM,用于分析分布式随机次梯度方法的全局收敛性。我们证明了在温和条件下,我们提出的框架的全局收敛性,通过建立生成的序列渐近逼近其相关微分纳入的轨迹。此外,我们证明了我们提出的框架包括各种现有的高效分布式次梯度方法,包括分布式随机次梯度下降(DSGD),带有梯度跟踪技术的 DSGD(DSGD-T)和带有动量的 DSGD(DSGDm)。此外,我们引入 SignSGD,使用符号映射来规范 DSGDm 中的更新方向,并证明其包含在我们提出的框架中。因此,我们的收敛结果首次证明了这些方法在应用于非光滑非凸目标时的全局收敛性。初步的数值实验表明,我们提出的框架在非光滑神经网络的训练中产生了高效的分布式次梯度方法,具有收敛性保证。
Mar, 2024
本文研究随机版归一化梯度下降算法,并证明了该算法在优化拥有拟凸和局部 Lipschitz 性质的函数时,能够保证收敛到全局最优解。与标准的随机梯度下降算法不同的是,该算法要求使用最小的小批量大小,以避免梯度爆炸等问题。
Jul, 2015
本文研究了一种更为广泛的两人博弈非凸强凹优化的收敛性,在 K-L 参数化几何全谱上,证明了 Proximal-GDA 算法的收敛速率是不同的,这是首个关于非凸极小极大优化变量收敛的理论结果。
Feb, 2021
本研究探讨了解决分布式优化问题的多种方法,包括 EXTRA、Exact-Diffusion/D^2 和梯度跟踪算法等,研究表明这些方法在网络拓扑敏感性上相对于 DSGD 较弱。该研究针对此问题提出了一种统一的分布式算法 SUDA,并建立了 SUDA 的收敛性,实验结果证明该算法对网络拓扑较为鲁棒。
Oct, 2021
本文研究梯度下降和随机梯度下降等算法在机器学习中的应用,分析了这些算法在非凸优化问题中收敛到驻点的情况,提出了变形的算法可以更高效地避免出现维数灾难,从而沟通了理论和实践。
Feb, 2019