BriefGPT.xyz
Oct, 2021
SGD达到零损失后会发生什么?——数学框架
What Happens after SGD Reaches Zero Loss? --A Mathematical Framework
HTML
PDF
Zhiyuan Li, Tianhao Wang, Sanjeev Arora
TL;DR
该论文提出了一个可以研究Stochastic Gradient Descent在overparametrized模型中的隐式偏差的通用框架,该框架使用一个描述参数极限动态的随机微分方程,并考虑了任意噪声协方差,文中给出了一些新结果,同时可以在线性模型中进行应用。
Abstract
Understanding the
implicit bias
of
stochastic gradient descent
(SGD) is one of the key challenges in deep learning, especially for
overparametriz
→