Dec, 2023

关于无替换的 SGD 轨迹

TL;DR通过分析基于随机梯度下降(SGD)的隐式正则化效应,本文研究了 SGD 无替换的情况,并发现其与添加了一种新型正则化器时的最优化过程等价,导致其在损失函数空间中与注入噪声的 GD 和采样独立同分布的 SGD 有着明显不同的轨迹,并在某些视觉任务中鼓励损失函数海森矩阵的特征值谱中出现稀疏性。