非凸优化中的自适应策略
本文提出了一种自适应学习率算法,该算法利用了损失函数的随机曲率信息自动调整学习率,并且提出了一种新的方差缩减技术以加速收敛,在深度神经网络实验中,相比于流行的随机梯度算法获得了更好的性能。
Mar, 2017
通过研究广义 AdaGrad 步长在凸和非凸设置中,本文证明了这些步长实现梯度渐近收敛于零的充分条件,从而填补了这些方法理论上的空白。此外,本文表明这些步长允许自动适应随机梯度噪声级别在凸和非凸情况下,实现 O(1/T)到 O(1 / 根号 T)的插值(带有对数项)。
May, 2018
该研究介绍了一种名为 SCSG 的自适应算法,通过批量方差降低和几何随机变量技术,该算法对强凸性和目标精度具有适应性,实现了比其他已有适应性算法更好的理论复杂度。
Apr, 2019
大规模机器学习问题中,通过松散提示参数信息,提出了能够自动调整的 “无需调参” 的算法,能够与最优调参优化算法在多对数因子上实现性能匹配,特别是对于有界优化领域,证明了这种匹配是可能的,并且多个现有算法已经实现了该特性。然而,在无界领域中,证明了无需调参优化是不可能的,但在噪声分布足够良好的情况下,通过一些算法如 DoG 和 DoWG,可以满足无需调参的条件。对于查找光滑且可能非凸函数的稳定点,提出了一种改进的随机梯度下降(SGD)变体,以仅有多对数成本匹配调参 SGD 的最佳已知高概率收敛率,然而,也证明了任何算法都不可能满足与调参 SGD 高概率收敛率相匹配的最优期望收敛率。
Feb, 2024
本研究探讨了差分隐私凸优化中的自适应算法,通过实现不同差分隐私变量 Stochastic Gradient Descent(SGD)算法和 Adagrad 算法的私有版本,证明了我们的私有版本的 Adagrad 优于自适应 SGD,而这又优于传统的 SGD。我们提供了两种算法的后悔上界,并表明这些上限是最优的。
Jun, 2021
通过利用指数步长和随机线性搜索等技术,使得随机梯度下降算法适应不同噪声水平和问题相关的常数,可以在强凸函数的条件下,取得与理论最优相近的收敛速度,同时能够有效地处理噪声和数据不凸的情况。
Oct, 2021
本文针对非凸非光滑问题提出新的算法稳定性度量方法,同时建立它们与梯度之间的量化关系,并使用采样确定算法导出了随机梯度下降算法和其自适应变种的误差界。
Jun, 2022
本文针对深度学习中的非凸随机优化问题,提出了适当的学习率,并使用自适应学习率优化算法(如 Adam 和 AMSGrad),可以近似问题的固定点,同时保证这些算法可以近似凸随机优化问题的全局最小值,在文本和图像分类的实验中,采用不同的学习率优化算法,结果表明使用恒定学习率性能比衰减学习率的性能更佳。
Feb, 2020
本文针对随机梯度下降法(SGD)调参的问题,提出了一个不需调参的自动降低学习速率的方法,并通过在迭代中解决并行化、更新方法、非光滑损失函数以及 Hessian 矩阵估计等问题,提高了算法性能。最终算法具有线性复杂度和无需超参数。
Jan, 2013
通过理论和实验证明,Normalized Stochastic Gradient Descent with Momentum 算法在没有先验知识的情况下可以实现(接近)最优复杂度,但复杂度中引入了一个依赖于 (L_1) 的指数项,这是不可避免的。同时,在确定性设置下,可以通过使用 Gradient Descent with a Backtracking Line Search 来抵消指数因子。这是首个在广义平滑条件下提出的无需参数设置的收敛结果。
Nov, 2023