使用较小的学习率和SGD最陡峭的方向进行训练可以提高模型的训练速度和泛化能力,而较大的学习率或较小的批量大小将导致SGD进入更宽的区域。
Jul, 2018
本文研究隐式偏差和隐式正则化对随机凸优化中随机梯度下降的影响,提供了一种简单构造来排除控制SGD泛化能力的分布独立的隐式正则化器的存在,并且证明了分布依赖的一般类隐式正则化器不能解释泛化的学习问题,说明了仅仅通过隐式正则化的特性来全面解释算法的泛化性能存在重大困难。
Mar, 2020
本文中,我们理论上证明了随机梯度下降法(SGD)中参数相关噪声(由小批量或标签扰动引起)比高斯噪声更加有效,并且具有对训练过度参数化模型的重要隐式正则化效应。
Jun, 2020
本文研究随机梯度下降(SGD)的学习率对准确性的影响,证明当学习率适当大时,SGD的迭代路径离梯度下降路径更近,这种现象可通过引入一个隐式正则化项进行解释,并通过实验证明在适当的学习率下包含隐式正则化项可以提高测试准确性。
Jan, 2021
本文研究了随机梯度下降和全样本梯度下降在随机凸优化模型中泛化性能的分离问题,发现经典的全样本梯度下降算法在步数相同的情况下会出现过拟合且通常需要更多的步数才能与随机梯度下降算法获得类似的泛化性能。同时本文还探讨了正则化、稳定性和隐含偏差等概念在泛化中的作用。
Feb, 2021
研究过参数化模型,标签噪音等对随机梯度下降中的正则化作用及其影响。
Jun, 2021
本文研究了随机梯度下降在对角线线性网络上的动态规律,证明了它比梯度下降的解具有更好的泛化性能,并发现收敛速度控制偏见效应的大小,结果支持了结构化噪声可以引起更好泛化性能的理论结论。
本文通过动态稳定性的角度研究了随机梯度下降法(SGD)的隐式正则化,并探讨了稳定的最小值对二层ReLU神经网络和对角线线性网络的广义性能影响,发现SGD的稳定性正则化较于GD更强,LR越大效果越明显,解释了为什么SGD比GD更具普适性。
May, 2023
利用随机梯度下降(Stochastic Gradient Descent, SGD)算法研究了在正交数据上训练具有线性或ReLU激活函数的单神经元自编码器的动力学。我们发现对于这个非凸问题,使用恒定步长的随机初始化SGD算法可以成功找到全局最小值,但具体找到的全局最小值取决于批量大小。在全批次设置中,我们发现解是稠密的(即非稀疏的),与初始化方向非常吻合,表明特征学习很少发生。另一方面,对于任何小于样本数的批量大小,SGD会找到一个稀疏且几乎正交于初始化的全局最小值,表明随机梯度的随机性在这种情况下引起了一种不同类型的“特征选择”。此外,如果通过Hessian矩阵的迹来衡量最小值的锐度,则使用全批次梯度下降找到的最小值比使用小批量大小找到的最小值更平坦,这与先前的研究相矛盾,先前的研究认为大批量会导致更锐利的最小值。为了证明SGD使用恒定步长的收敛性,我们引入了非齐次随机游走理论中的重要工具,该工具对于独立研究可能具有重要意义。
Aug, 2023
通过分析基于随机梯度下降(SGD)的隐式正则化效应,本文研究了SGD无替换的情况,并发现其与添加了一种新型正则化器时的最优化过程等价,导致其在损失函数空间中与注入噪声的GD和采样独立同分布的SGD有着明显不同的轨迹,并在某些视觉任务中鼓励损失函数海森矩阵的特征值谱中出现稀疏性。
Dec, 2023