Feb, 2021

随机微分方程模型化 SGD 的有效性

TL;DR通过实验和理论分析,本文揭示了有限 LR 的 SGD(随机梯度下降)可以用 Ito 随机微分方程近似,且该近似可以捕捉常见深度神经网络的训练和泛化特性,提出了线性缩放规则的必要条件。