超越隐性偏见: SGD噪声在在线学习中的无关性
本文提出基于样本不确定性轻量级估计的两种改进型随机梯度下降算法:SGD 迭代中正确类别预测概率的方差和与决策阈值的正确类别概率的接近度来重新加权训练样本,实验结果表明我们的方法可靠地提高了各种网络结构的精度,包括残差学习、动量、ADAM、批量标准化、丢弃和蒸馏等其他流行的训练技术所不能达到的额外收益。
Apr, 2017
本文中,我们理论上证明了随机梯度下降法(SGD)中参数相关噪声(由小批量或标签扰动引起)比高斯噪声更加有效,并且具有对训练过度参数化模型的重要隐式正则化效应。
Jun, 2020
该研究旨在通过分析局部收敛行为来解释为什么类似ADAM的适应性梯度算法的泛化性能比SGD差,尤其是它们在梯度噪声方面存在重尾现象;研究结果表明,SGD相比于ADAM能更好地从局部最小值中逃脱,并且在平缓的最小值处表现更好。实验结果证实了我们的理论假设。
Oct, 2020
本研究针对模型学习速率为中等并逐渐降低的情况,研究了SGD和GD在超参数调节中的常见行为,以此试图解决机器学习中的算法偏差问题,并得出了不同方向偏差可能导致最终预测结果差异的结论。
Nov, 2020
本文研究了随机梯度下降在对角线线性网络上的动态规律,证明了它比梯度下降的解具有更好的泛化性能,并发现收敛速度控制偏见效应的大小,结果支持了结构化噪声可以引起更好泛化性能的理论结论。
Jun, 2021
本文研究了离散时间下具有动量的SGD的时域白噪声的自相关,并研究了epoch-based噪声相关性对于SGD的影响,结果表明对于大于超参数相关值的曲率方向,可以恢复无关噪声的结果,但对于相对平坦的方向,权重方差显著降低。
Jun, 2023
当存在连续对称性时,我们表征了随机梯度下降法(SGD)的学习动力学,它与梯度下降法之间的差异是显著的。我们将对称性对学习动力学的影响分为两类:其中一类对称性,SGD自然地收敛于具有平衡和对齐梯度噪声的解;另一类对称性下,SGD几乎总是发散。然后,我们证明了即使丢失函数中不存在对称性,我们的结果仍然适用并可以帮助我们理解训练动力学。我们的主要结果是普适的,仅依赖于对称性的存在,而与丢失函数的细节无关。我们证明了提出的理论解释了渐进锐化和平坦化,并可应用于常见的实际问题,如表示规范化,矩阵分解和预热的使用。
Feb, 2024
使用小批量随机梯度下降(SGD)训练深度神经网络(DNNs)相对于大批量训练具有卓越的测试性能。这种随机梯度下降的特定噪声结构被认为是导致这种隐式偏差的原因。使用差分隐私(DP)确保DNN的训练时,DP-SGD会向截断梯度添加高斯噪声。然而,大批量训练仍然导致显著的性能下降,这构成了一个重要的挑战,因为强DP保证需要使用大规模批次。我们首先展示这种现象也适用于无噪声SGD(无截断的DP-SGD),表明随机性(而不是截断)是这种隐式偏差的原因,即使加入了额外的各向同性高斯噪声。我们在线性最小二乘和对角线线性网络设置中理论上分析了连续版本的无噪声SGD所得到的解,并揭示了隐式偏差确实被额外的噪声放大。因此,大批量DP-SGD训练的性能问题根源于SGD的相同潜在原则,为大批量训练策略的潜在改进提供了希望。
Feb, 2024
神经网络过拟合问题涉及超参数,随机梯度下降以及网络架构等因素,本文通过研究随机和经优化的网络来解析由优化和架构选择引起的泛化问题,实验证明对于增加的宽度,超参数化对泛化有益,并且这一益处源于随机梯度下降的偏差,而不是网络架构导致的;相反,对于增加的深度,超参数化对泛化不利,但随机和经优化的网络表现相似,因此这可以归因于架构偏差。
Jul, 2024