Aug, 2023

SGD 批大小对自编码器学习的影响:稀疏性,锐度和特征学习

TL;DR利用随机梯度下降 (Stochastic Gradient Descent, SGD) 算法研究了在正交数据上训练具有线性或 ReLU 激活函数的单神经元自编码器的动力学。我们发现对于这个非凸问题,使用恒定步长的随机初始化 SGD 算法可以成功找到全局最小值,但具体找到的全局最小值取决于批量大小。在全批次设置中,我们发现解是稠密的(即非稀疏的),与初始化方向非常吻合,表明特征学习很少发生。另一方面,对于任何小于样本数的批量大小,SGD 会找到一个稀疏且几乎正交于初始化的全局最小值,表明随机梯度的随机性在这种情况下引起了一种不同类型的 “特征选择”。此外,如果通过 Hessian 矩阵的迹来衡量最小值的锐度,则使用全批次梯度下降找到的最小值比使用小批量大小找到的最小值更平坦,这与先前的研究相矛盾,先前的研究认为大批量会导致更锐利的最小值。为了证明 SGD 使用恒定步长的收敛性,我们引入了非齐次随机游走理论中的重要工具,该工具对于独立研究可能具有重要意义。