随机优化中的记忆作用
我们提出了一种称为 Nostalgic Adam(NosAdam)的算法,通过更多考虑过去的梯度并设计自适应学习率,解决了类似于 Adam 的算法中缺乏长期记忆的问题,并在最佳已知收敛率下具有理论上的收敛保证。
May, 2018
本文旨在解决现实应用中使用随机梯度下降法进行深度学习和凸优化时,普遍使用最后一次迭代作为最终解决方案,但唯独它的可用遗憾分析和恒定动量参数设置只保证平均解的最佳收敛问题,并且探究单独收敛分析问题,最终我们证明了:在约束凸问题中,使用 Polyak's Heavy-ball 方法,它只能通过移动平均策略更新步长,即可获得 O(1 / 根号 T)的最优收敛率,而不是普通 SGD 的 O(log T / 根号 T)的优化。同时,我们的新型分析方法不仅阐释了 HB 动量及其时间变化的作用,还给出了有价值的暗示,即动量参数应如何进行安排。同时,针对优化凸函数和训练深度网络的实证结果,验证了我们收敛分析的正确性,并证明了自适应 HB 方法的改进性能。
Feb, 2021
本文介绍了使用离散随机递归关系模拟随机优化算法,说明由于局部收敛速度方差的增加,会导致多项式噪声,从而得到具有重尾结构的参数固定点,其优化具有更高的容量,以更好地探索非凸损失面。
Jun, 2020
该论文通过使用 QHM 的一般公式来对几种流行的算法进行统一分析,涵盖了它们的渐近收敛条件,稳定区域和其稳态分布的性质,通过结合收敛速度和稳态分布结果,得出了设置学习速率和动量参数的实用指南。
Oct, 2019
该研究发展了随机修正方程 (SME) 框架的数学基础,以便于分析随机梯度算法的动态,其中后者由一类噪声参数很小的随机微分方程逼近。研究表明,这种逼近可以被理解为一种弱逼近,从而在随机目标的一般设置下,得出了关于随机梯度下降、动量 SGD 和随机 Nesterov 加速梯度方法逼近的一些精确而有用的结果。同时,我们还通过显式计算表明,这种连续时间方法可以揭示随机梯度算法的一些重要分析洞见,这在纯离散时间设置中可能很难获得。
Nov, 2018
我们研究了最小二乘问题的连续时间随机梯度下降(SGD)模型的动力学。我们通过分析随机微分方程 (SDE),在训练损失(有限样本)或总体损失(在线设置)的情况下建模 SGD 来追求 Li 等人 (2019) 的研究成果。该动力学的一个关键特征是无论样本大小如何,都存在与数据完美插值器。在这两种情况下,我们提供了收敛到(可能退化的)稳态分布的精确非渐近速率。此外,我们描述了渐近分布,给出了其均值、与之偏差的估计,并证明了与步长大小有关的重尾现象的出现。我们还呈现了支持我们发现的数值模拟结果。
Jul, 2024
本研究探讨了随机动量梯度下降(stochastic momentum)算法在深度神经网络训练中的作用,提出了其改进了随机梯度下降算法以更快地逃离鞍点并找到更快的二阶稳定点的结论。理论分析表明,$eta$ 应该接近 1,这与实验结果一致。
Jun, 2021
利用随机微分方程分析和比较最小化最大化优化器的 SDE 模型,揭示超参数、隐式正则化和隐含的曲率诱导噪声之间的相互作用,并以简化的设定推导出收敛条件和闭式解,进一步揭示不同优化器行为的见解。
Feb, 2024