随机优化中的记忆作用

Jul, 2019

The Role of Memory in Stochastic Optimization

Antonio Orvieto, Jonas Kohler, Aurelien Lucchi

TL;DR研究使用随机微分方程来研究梯度下降算法中记忆的作用，提出了一种离散时间的算法，实现了从短期到长期的记忆范围，并在凸随机设置中比传统动量法具有更好的稳定性和收敛性。

Abstract

The choice of how to retain information about past gradients dramatically affects the convergence properties of state-of-the-art stochastic optimization methods, such as Heavy-ball, Nesterov's momentum, RMSprop a

stochastic optimization memory sdes convergence gradient-based algorithms

发现论文，激发创造

怀旧的 Adam: 在设计自适应学习率时更注重过去时刻的梯度加权

我们提出了一种称为 Nostalgic Adam（NosAdam）的算法，通过更多考虑过去的梯度并设计自适应学习率，解决了类似于 Adam 的算法中缺乏长期记忆的问题，并在最佳已知收敛率下具有理论上的收敛保证。

May, 2018

自适应 Polyak 重球方法中动量参数在最优收敛中的作用

本文旨在解决现实应用中使用随机梯度下降法进行深度学习和凸优化时，普遍使用最后一次迭代作为最终解决方案，但唯独它的可用遗憾分析和恒定动量参数设置只保证平均解的最佳收敛问题，并且探究单独收敛分析问题，最终我们证明了：在约束凸问题中，使用 Polyak's Heavy-ball 方法，它只能通过移动平均策略更新步长，即可获得 O（1 / 根号 T）的最优收敛率，而不是普通 SGD 的 O（log T / 根号 T）的优化。同时，我们的新型分析方法不仅阐释了 HB 动量及其时间变化的作用，还给出了有价值的暗示，即动量参数应如何进行安排。同时，针对优化凸函数和训练深度网络的实证结果，验证了我们收敛分析的正确性，并证明了自适应 HB 方法的改进性能。

Feb, 2021

随机优化中的乘性噪声和重尾分布

本文介绍了使用离散随机递归关系模拟随机优化算法，说明由于局部收敛速度方差的增加，会导致多项式噪声，从而得到具有重尾结构的参数固定点，其优化具有更高的容量，以更好地探索非凸损失面。

Jun, 2020

随机梯度方法中动量的作用理解

该论文通过使用 QHM 的一般公式来对几种流行的算法进行统一分析，涵盖了它们的渐近收敛条件，稳定区域和其稳态分布的性质，通过结合收敛速度和稳态分布结果，得出了设置学习速率和动量参数的实用指南。

Oct, 2019

随机修正方程和随机梯度算法动力学 I：数学基础

该研究发展了随机修正方程 (SME) 框架的数学基础，以便于分析随机梯度算法的动态，其中后者由一类噪声参数很小的随机微分方程逼近。研究表明，这种逼近可以被理解为一种弱逼近，从而在随机目标的一般设置下，得出了关于随机梯度下降、动量 SGD 和随机 Nesterov 加速梯度方法逼近的一些精确而有用的结果。同时，我们还通过显式计算表明，这种连续时间方法可以揭示随机梯度算法的一些重要分析洞见，这在纯离散时间设置中可能很难获得。

Nov, 2018

最小二乘随机梯度下降的随机微分方程模型

我们研究了最小二乘问题的连续时间随机梯度下降（SGD）模型的动力学。我们通过分析随机微分方程 (SDE)，在训练损失（有限样本）或总体损失（在线设置）的情况下建模 SGD 来追求 Li 等人 (2019) 的研究成果。该动力学的一个关键特征是无论样本大小如何，都存在与数据完美插值器。在这两种情况下，我们提供了收敛到（可能退化的）稳态分布的精确非渐近速率。此外，我们描述了渐近分布，给出了其均值、与之偏差的估计，并证明了与步长大小有关的重尾现象的出现。我们还呈现了支持我们发现的数值模拟结果。

Jul, 2024

Adam 及其发展的收敛性研究

通过给 Adam 算法加上‘长期记忆’过去梯度的方法，不仅可以解决收敛问题，而且经常提高算法的实验性能。

Apr, 2019

基于动态记忆的自适应优化

优化器记忆机制的研究表明通过引入更多记忆单元以及使其更具自适应性，可提高已知优化器的性能。

Feb, 2024

随机动量法快速逃脱鞍点

本研究探讨了随机动量梯度下降（stochastic momentum）算法在深度神经网络训练中的作用，提出了其改进了随机梯度下降算法以更快地逃离鞍点并找到更快的二阶稳定点的结论。理论分析表明，$eta$ 应该接近 1，这与实验结果一致。

Jun, 2021

极小化极大优化的 SDEs

利用随机微分方程分析和比较最小化最大化优化器的 SDE 模型，揭示超参数、隐式正则化和隐含的曲率诱导噪声之间的相互作用，并以简化的设定推导出收敛条件和闭式解，进一步揭示不同优化器行为的见解。

Feb, 2024