适应性平均随机梯度下降法在逻辑回归中局部强凸性上的应用
本文研究了随机梯度下降在随机情形下的最优性。结果表明,对于光滑问题,算法可以达到最优的O(1/T)收敛速率,但对于非光滑问题,平均收敛速率可能真的是Ω(log(T)/T),而这不仅仅是分析的产物。反过来,我们展示了一种简单的平均步骤修改方法,足以恢复到O(1/T)收敛速率,而无需对算法做出任何其他改变。此外,我们还给出了支持我们发现的实验结果,并指出了开放性问题。
Sep, 2011
本文探讨了在没有光滑假设的情况下,以及通过运行平均方案将SGD迭代转换为具有最佳优化精度的解决方案的性能,并证明了对于凸非光滑目标函数,最后一个SGD迭代的次优性的程度随T的轮次按O(log(T)/ sqrt(T))缩放,对于非光滑强凸情况,次优性的程度随T按O(log(T)/ T)缩放。此外,本文提出了一种新的简单平均方案,并提供了一些实验说明。
Dec, 2012
本篇论文研究了关于随机逼近问题的现有算法,提出了两种新型随机梯度算法,并在回归和逻辑分类两种经典的监督学习问题上进行了测试,得到了较好的优化效果。
Jun, 2013
通过研究广义AdaGrad步长在凸和非凸设置中,本文证明了这些步长实现梯度渐近收敛于零的充分条件,从而填补了这些方法理论上的空白。此外,本文表明这些步长允许自动适应随机梯度噪声级别在凸和非凸情况下,实现O(1/T)到O(1/根号T)的插值(带有对数项)。
May, 2018
该研究介绍了一种名为SCSG的自适应算法,通过批量方差降低和几何随机变量技术,该算法对强凸性和目标精度具有适应性,实现了比其他已有适应性算法更好的理论复杂度。
Apr, 2019
本研究旨在研究基于观察的随机梯度的步长的变化,以最小化非凸光滑目标函数的AdaGrad-Norm的收敛速度,并表明AdaGrad-Norm在假设与最佳调优的非自适应SGD相同的情况下展现出与之相同的收敛速度,同时不需要任何调整参数。
Feb, 2022
本文证明了在使用可变学习率运行梯度下降时,对于逻辑回归目标函数,损失 f(x) ≤ 1.1·f(x*) + ε,其中误差 ε 按迭代次数指数下降,并按任意固定解决方案 x* 条目大小的多项式下降。该文还将这些思想应用于稀疏逻辑回归,在那里它们导致了稀疏误差交换的指数改进。
Jun, 2023
本文探讨了随机梯度下降算法的加速收敛方法,提出了一种自适应加权平均方案,并提供了非渐近收敛的统计保证和在线推断方法。最终的结论表明,该自适应加权平均方案不仅在统计率上是最优的,而且在非渐近收敛方面也具有有利的效果。
Jul, 2023