带有动量的 Polyak 步骤的复杂度保证
通过证明其简单变体可同时在强凸性、平滑性和 Lipschitz 参数的所有范围内,不需要关于这些参数的先验知识,为梯度下降算法获得接近最优的收敛速度,本文重新审视了用于解决凸优化问题的 Polyak 步长调度。
May, 2019
该论文研究了在采用小型或有界批量大小时,在非凸设置中具有重要意义的随机近端梯度法,证明了该方法在非凸复合优化问题中达到最优的收敛速度,并且严格分析了 Polyak 动量在复合优化设置中的方差缩减效应,同时证明了在近似解决近端步骤的情况下,该方法仍然收敛,并通过数值实验验证了我们的理论结果。
Mar, 2024
本文介绍了一种随机子梯度方法,该方法结合了动量项,能够在一类广泛意义下的非光滑、非凸和受约束的优化问题中建立一个特殊的李亚普诺夫函数,实现快速收敛。
Feb, 2020
本文研究了动量下降法在神经网络训练中的应用,揭示了其加速神经网络训练的原因及机理。通过对多个模型的分析,得出了使用动量下降法相比普通梯度下降法,能够更快地达到更优的训练效果的结论。
Oct, 2020
本文提出将 Subgradient 方法中的 Polyak 步长推广到随机梯度下降中,并证明了该算法可以在非渐进情况下以更好的速率收敛于优化解,该算法在训练深度神经网络等问题上表现良好。
Mar, 2019
针对非凸优化中最小最大优化问题,本研究提出了利用高效的 Hessian - 向量乘积的新型修正动量算法,建立了收敛条件并证明了所提算法的迭代复杂度为 O (ε^{-3})。通过在实际数据集上进行鲁棒的逻辑回归的应用验证了该方法的有效性。
Jun, 2024
本文提出一类新的目标函数,其中只有参数的一个子集满足强凸性,并证明 Nesterov 的动量在这个目标类上实现了加速收敛,其中包括用于深度 ReLU 网络的两种实现方法,这是第一篇证明非平凡神经网络结构加速收敛率的论文。
Jun, 2023
在这篇论文中,我们提出了一种基于经典和加速动量方法之间的变分一对一对应的思想,对列伪群优化进行 Nesterov 类方法的推广,之前文献中主要关注的都是对 Polyak 的 Heavy Ball 方法进行推广,我们的数值实验结果显示了该方法的有效性。
Apr, 2024
本文提出了一种加速的一阶优化算法 —— 鲁棒动量法,可用于优化平滑强凸函数。该算法有一种参数可以调节对梯度噪声的稳健性与最差情况下的收敛速度之间的平衡。算法具有简单的解析形式,并通过在干净和梯度噪声情况下的一系列数值模拟进行了验证。
Oct, 2017
本文介绍了在强化学习领域中广泛使用且具有收敛保证和稳定性的策略梯度算法,在解决参数敏感性问题的同时,通过实验展示了 Polyak 步长在强化学习中更快的收敛速度和更稳定的策略产生。
Apr, 2024