形状对噪声协方差隐式偏差的影响
本研究提出一种改善大批量训练的泛化性能并维持最优收敛的方法,即在梯度中添加协方差噪声,通过对噪声矩阵的对数Frobenius范数进行特征提取获得更精确的学习效果表现。实证研究表明该方法不仅可以提高大批量训练的泛化性能,而且不会影响优化性能以及训练时间。
Feb, 2019
本研究探讨了梯度噪声在深度学习中的正则化作用,发现除了随机梯度下降噪声外,其他类型的噪声也能有效地进行梯度下降的正则化。同时该研究提出了一种噪声下降的算法,能够拓展噪声的选择,有利于大批量SGD训练,同时也不会影响泛化性能。
Jun, 2019
本研究针对模型学习速率为中等并逐渐降低的情况,研究了SGD和GD在超参数调节中的常见行为,以此试图解决机器学习中的算法偏差问题,并得出了不同方向偏差可能导致最终预测结果差异的结论。
Nov, 2020
分析随机梯度下降中,小批量抽样引起的噪声和波动,揭示了大学习率可以通过引入隐含的正则化来帮助泛化的内在规律,并且可以提供一种理解随机梯度下降离散时序性对其功率规律现象的影响。
Feb, 2021
该论文提出了一个可以研究Stochastic Gradient Descent在overparametrized模型中的隐式偏差的通用框架,该框架使用一个描述参数极限动态的随机微分方程,并考虑了任意噪声协方差,文中给出了一些新结果,同时可以在线性模型中进行应用。
Oct, 2021
本文研究了离散时间下具有动量的SGD的时域白噪声的自相关,并研究了epoch-based噪声相关性对于SGD的影响,结果表明对于大于超参数相关值的曲率方向,可以恢复无关噪声的结果,但对于相对平坦的方向,权重方差显著降低。
Jun, 2023
当存在连续对称性时,我们表征了随机梯度下降法(SGD)的学习动力学,它与梯度下降法之间的差异是显著的。我们将对称性对学习动力学的影响分为两类:其中一类对称性,SGD自然地收敛于具有平衡和对齐梯度噪声的解;另一类对称性下,SGD几乎总是发散。然后,我们证明了即使丢失函数中不存在对称性,我们的结果仍然适用并可以帮助我们理解训练动力学。我们的主要结果是普适的,仅依赖于对称性的存在,而与丢失函数的细节无关。我们证明了提出的理论解释了渐进锐化和平坦化,并可应用于常见的实际问题,如表示规范化,矩阵分解和预热的使用。
Feb, 2024