该论文研究了在采用小型或有界批量大小时,在非凸设置中具有重要意义的随机近端梯度法,证明了该方法在非凸复合优化问题中达到最优的收敛速度,并且严格分析了 Polyak 动量在复合优化设置中的方差缩减效应,同时证明了在近似解决近端步骤的情况下,该方法仍然收敛,并通过数值实验验证了我们的理论结果。
Mar, 2024
该论文针对随机动量法在非凸优化领域中的收敛性分析不足,通过对两种随机动量法(随机重球法和随机版 Nesterov 加速梯度法)的基本收敛性分析,提出了一种统一框架,展示了它们与随机梯度法之间的相似性和差异性,并在深度学习的测试误差收敛行为中解释了连续变化现象。同时,对深度神经网络的优化实验结果表明,随机版 Nesterov 加速梯度法在训练误差收敛速度和测试误差收敛鲁棒性方面取得了很好的平衡。
Apr, 2016
本研究论文探讨了随机梯度下降(SGD)方法及其变种在训练非光滑激活函数构建的神经网络中的收敛性质,提出了一种新的框架,分别为更新动量项和变量分配不同的时间尺度。在一些温和条件下,我们证明了我们提出的框架在单一时间尺度和双时间尺度情况下的全局收敛性。我们展示了我们提出的框架包含了许多著名的 SGD 类型方法,包括 heavy-ball SGD、SignSGD、Lion、normalized SGD 和 clipped SGD。此外,当目标函数采用有限和形式时,我们证明了基于我们提出的框架的这些 SGD 类型方法的收敛性质。特别地,在温和的假设条件下,我们证明了这些 SGD 类型方法以随机选择的步长和初始点找到了目标函数的 Clarke 稳定点。初步的数值实验表明了我们分析的 SGD 类型方法的高效性。
Jul, 2023
本文提出一种加速的随机算法来最小化凸函数的总和,该算法适用于机器学习和凸函数非凸平均问题,并使用动量提高了算法性能,同时可实现小批量并行计算。
Feb, 2018
本研究旨在探讨优化非光滑非凸正则化器下的平滑非凸损失函数的随机梯度方法。我们提出了两种简单的随机梯度算法,对于有限总和和一般随机优化问题,相较于现有技术水平,其具有更优的收敛复杂度。同时,我们在经验风险最小化中比较了两种算法的实际表现。
Jan, 2019
本文研究了非凸优化中动量随机梯度下降 (MSGD) 算法的连续性版本,并证明了在目标函数满足 Lipschitz 连续性和 Polyak-Lojasiewicz 不等式的条件下,MSGD 算法的目标函数极限收敛指数级收敛,同时在给定摩擦参数的情况下,MSGD 过程几乎必定收敛。
Feb, 2023
本文研究了几种被重量球动量丰富的随机优化算法,证明了它们的全局非渐进线性收敛速率,并在稀疏数据环境下提出了随机动量,证明了它对于带有动量的算法有更好的整体复杂度。
Dec, 2017
针对非凸优化中最小最大优化问题,本研究提出了利用高效的 Hessian - 向量乘积的新型修正动量算法,建立了收敛条件并证明了所提算法的迭代复杂度为 O (ε^{-3})。通过在实际数据集上进行鲁棒的逻辑回归的应用验证了该方法的有效性。
Jun, 2024
本文证明了具有广义可微性质、约束非光滑非凸目标函数的单时标随机次梯度法和子梯度平均方法的收敛性,同时,我们也证明了这类函数路径上的链式规则。
Dec, 2019
在非凸优化问题中,本文研究了加速近端梯度法 (APGnc) 以及基于其的随机方差减少 (APGnc) 算法,证明了其所生成的序列的极限点是目标函数的临界点,并通过 KL 函数的性质获得了线性和次线性的收敛速率。
May, 2017