May, 2024

用于建模 SGD 的 Hessian 感知随机微分方程

TL;DR连续时间近似是研究随机梯度下降从稳定点逃离行为的关键工具,本文提出了基于新颖的随机反向误差分析框架的 Hessian-Aware Stochastic Modified Equation (HA-SME) 来模拟这些行为,在平方目标函数情况下 HA-SME 成为第一个在分布意义上精确恢复标准梯度下降动态的 SDE 模型,能够准确预测 SGD 在稳定点附近的逃逸行为。