BriefGPT.xyz
Sep, 2023
随机梯度下降的不同制度
On the different regimes of Stochastic Gradient Descent
HTML
PDF
Antonio Sclocchi, Matthieu Wyart
TL;DR
通过对教师-学生感知器分类模型的研究,我们在B-η平面上获得了一个相图,分为三个动力学相:(i)由温度控制的噪声主导的SGD,(ii)由大步长主导的SGD和(iii)GD,这些不同相还对应着不同的泛化误差区域。有趣的是,我们的分析揭示了将相(i)和相(ii)分隔开的批次大小B*与训练集大小P呈比例,其中的指数表征了分类问题的难度。
Abstract
Modern
deep networks
are trained with
stochastic gradient descent
(SGD) whose key parameters are the number of data considered at each step or
ba
→