Jul, 2024
最小二乘随机梯度下降的随机微分方程模型
Stochastic Differential Equations models for Least-Squares Stochastic
Gradient Descent
TL;DR我们研究了最小二乘问题的连续时间随机梯度下降(SGD)模型的动力学。我们通过分析随机微分方程(SDE),在训练损失(有限样本)或总体损失(在线设置)的情况下建模SGD来追求Li等人(2019)的研究成果。该动力学的一个关键特征是无论样本大小如何,都存在与数据完美插值器。在这两种情况下,我们提供了收敛到(可能退化的)稳态分布的精确非渐近速率。此外,我们描述了渐近分布,给出了其均值、与之偏差的估计,并证明了与步长大小有关的重尾现象的出现。我们还呈现了支持我们发现的数值模拟结果。