一种非凸优化的随机拟牛顿方法
本文探讨了在没有光滑假设的情况下,以及通过运行平均方案将SGD迭代转换为具有最佳优化精度的解决方案的性能,并证明了对于凸非光滑目标函数,最后一个SGD迭代的次优性的程度随T的轮次按O(log(T)/ sqrt(T))缩放,对于非光滑强凸情况,次优性的程度随T按O(log(T)/ T)缩放。此外,本文提出了一种新的简单平均方案,并提供了一些实验说明。
Dec, 2012
本篇论文研究了关于随机逼近问题的现有算法,提出了两种新型随机梯度算法,并在回归和逻辑分类两种经典的监督学习问题上进行了测试,得到了较好的优化效果。
Jun, 2013
本文提出了一种基于限制记忆的BFGS更新公式和子采样Hessian-向量积的随机拟牛顿方法来有效地、稳健地和可伸缩地处理如何将曲率信息纳入随机逼近方法的问题,并通过机器学习问题上的数值结果展示其前景。
Jan, 2014
本文介绍了一种随机子梯度方法,该方法结合了动量项,能够在一类广泛意义下的非光滑、非凸和受约束的优化问题中建立一个特殊的李亚普诺夫函数,实现快速收敛。
Feb, 2020
本文提出了一种修剪随机梯度(子)梯度法(SGD)的收敛性研究,特别是对于具有快速增长次梯度的非光滑凸函数。研究表明,修剪对SGD的稳定性有益,并且修剪SGD算法在许多情况下具有有限的收敛速率。同时,我们还研究了带有动量的修剪方法的收敛性,并展示了新的Lyapunov分析证明了该方法在这类问题中具有最佳的收敛速率。数值结果验证了理论结果。
Feb, 2021
本文介绍了一种新的非均匀光滑条件下的优化方法,并开发出一种简单但有效的分析技术来限制沿轨迹的梯度,从而获得更强的凸优化和非凸优化问题的结果。我们通过这种新方法证明了(随机)梯度下降和Nesterov加速梯度法在这种一般的光滑条件下的收敛率,而不需要梯度剪裁,并允许在随机场景中的有界方差的重尾噪声。
Jun, 2023
通过理论和实验证明,Normalized Stochastic Gradient Descent with Momentum算法在没有先验知识的情况下可以实现(接近)最优复杂度,但复杂度中引入了一个依赖于(L_1)的指数项,这是不可避免的。同时,在确定性设置下,可以通过使用Gradient Descent with a Backtracking Line Search来抵消指数因子。这是首个在广义平滑条件下提出的无需参数设置的收敛结果。
Nov, 2023
该研究介绍了一种局部一阶平滑性oracle(LFSO),可以用于调整梯度下降方法的步长,从而改善全局和局部收敛性。通过应用LFSO于修正的一阶方法,可以在非强凸问题中实现全局线性收敛速度,从而提高了一般(加速)一阶方法的收敛率下界。
Nov, 2023
本研究解决了机器学习中优化问题的非光滑性问题,针对 convex $(L_0,L_1)$-光滑函数提出了新的收敛保证。研究通过改进梯度下降法的收敛速度,提出了一种新的加速方法,并扩展了结果到随机情况下,为自适应梯度下降法提供了新的收敛速率。
Sep, 2024