BriefGPT.xyz
Dec, 2023
关于无替换的SGD轨迹
On the Trajectories of SGD Without Replacement
HTML
PDF
Pierfrancesco Beneventano
TL;DR
通过分析基于随机梯度下降(SGD)的隐式正则化效应,本文研究了SGD无替换的情况,并发现其与添加了一种新型正则化器时的最优化过程等价,导致其在损失函数空间中与注入噪声的GD和采样独立同分布的SGD有着明显不同的轨迹,并在某些视觉任务中鼓励损失函数海森矩阵的特征值谱中出现稀疏性。
Abstract
This article examines the
implicit regularization
effect of
stochastic gradient descent
(SGD). We consider the case of
sgd without replacement
→