通过研究神经网络中的优化算法,提出了一个名为“自适应惯性”的新方法,能够更好地训练神经网络并提高泛化性能。
Jun, 2020
本文对机器学习应用中广泛使用的随机梯度下降及其变种算法在非凸优化问题中的收敛性做了一系列的理论分析,证明了在弱假设条件下,Delayed AdaGrad with momentum算法可高概率收敛于全局最优解。
Jul, 2020
本研究针对模型学习速率为中等并逐渐降低的情况,研究了SGD和GD在超参数调节中的常见行为,以此试图解决机器学习中的算法偏差问题,并得出了不同方向偏差可能导致最终预测结果差异的结论。
Nov, 2020
本研究探讨了随机动量梯度下降(stochastic momentum)算法在深度神经网络训练中的作用,提出了其改进了随机梯度下降算法以更快地逃离鞍点并找到更快的二阶稳定点的结论。理论分析表明,$eta$应该接近1,这与实验结果一致。
Jun, 2021
本文考察了随机梯度下降(SGD)算法过程中的冲量(momentum)对深度学习模型的收敛和泛化的影响,提出了冲量在提高泛化能力方面的新视角,并在一个一层卷积神经网络的分类问题中得出,使用加冲量的梯度下降(GD+M)算法可以有效提高模型的泛化能力。
Jul, 2022
本研究分析了随机梯度下降与动量法在强凸设置下的有限样本收敛速度,并证明了 Polyak-averaging 版本的 SGDM 估算器的渐近正态性以及其与平均 SGD 的渐近等价性。
May, 2023
这篇论文研究了动量在随机优化中的作用,通过理论分析和实验证明,在学习率较小且梯度噪声是不稳定的主要来源时,动量对于优化和泛化的效果有限。
Jul, 2023
本文介绍了一种基于降低历史梯度方差的新型优化方法,通过引入自适应权重来增强SGD的一阶时刻估计,在深度学习模型训练过程中动态改变权重以适应梯度方差的变化,实验结果表明该方法能够达到与现有优化方法相媲美的性能。
Nov, 2023
随机梯度下降(SGD)与动量在收敛性和泛化能力方面具有快速收敛和优秀的表现,但缺乏理论解释。本文证明了SGD与动量使目标函数平滑化,平滑程度由学习率、批量大小、动量因子、随机梯度的方差和梯度范数的上界决定。这一理论发现揭示了动量为何改善泛化性能,并对包括动量因子在内的超参数的作用提供了新的见解。我们还提出了一种利用SGD与动量平滑性质的隐性渐变优化算法,并提供了支持我们断言的实验结果。
Feb, 2024
本研究针对高维学习中随机梯度下降(SGD)及其加速变种的最优性问题进行探讨,填补了这一领域的研究空白。通过建立动量加速SGD的收敛上界,论文提出了在特定问题下SGD或ASGD能实现最小-最大最优收敛速率的具体条件。此外,研究结果揭示了SGD在学习“稠密”特征及易问题中的高效性,并表明动量能够在相对困难的学习问题上显著加速收敛速度。
Sep, 2024