本文探讨了不带替换采样的随机梯度下降在模型训练中的应用,并对凸函数的 SGD 收敛速率进行了分析。我们证明,当函数是二次型时,SGD 不带替换采样的收敛速率为 O (1/T^2 + n^2/T^3),同时我们也提出了强凸函数收敛速率的新的下界。
Feb, 2020
该论文提出了一个可以研究 Stochastic Gradient Descent 在 overparametrized 模型中的隐式偏差的通用框架,该框架使用一个描述参数极限动态的随机微分方程,并考虑了任意噪声协方差,文中给出了一些新结果,同时可以在线性模型中进行应用。
Oct, 2021
该研究论文讨论了随机梯度下降算法的收敛性分析,提出了一种在异步并行环境下使用降低学习率机制的算法,并证明了其收敛性。
Feb, 2018
SGD 使用隐式正则化训练深度神经网络的确切方式一直以来都很难界定,但我们证明了 SGD 最小化了一个与分布式权重后验分布相关的平均势能加一个熵正则化项,但这个势能通常与原始损失函数不同。此外,我们表明 SGD 在经典意义下甚至不会收敛,因此这种 ' 失衡 ' 的行为是由于对于深度网络,SGD 的梯度噪声是高度非各向同性的。我们在附录中给出了这些声明的广泛经验验证。
Oct, 2017
本文研究随机梯度下降(SGD)的学习率对准确性的影响,证明当学习率适当大时,SGD 的迭代路径离梯度下降路径更近,这种现象可通过引入一个隐式正则化项进行解释,并通过实验证明在适当的学习率下包含隐式正则化项可以提高测试准确性。
Jan, 2021
本文提出了一种新的随机梯度下降算法 sgdwor 来优化平滑凸函数,相较于使用独立且重复地采样的传统算法 sgd,sgdwor 算法采样不重复且能获得更快的收敛速度,本文给出了 sgdwor 算法在一般的平滑且强凸函数下的首个非渐进结果:k 次通信传输后,sgdwor 算法的收敛速度为 O (1/k^2),并与 sgd 算法在小 k 下具有相同收敛率,同时对问题相关参数(如条件数)的依赖性更弱。
Mar, 2019
本文探究了随机梯度下降(SGD)及其变种在非消失学习率模式下的基本性质,特别是推导了离散时间 SGD 在二次损失函数中的稳态分布,讨论了其影响,并考虑了 SGD 变体的逼近误差、小批量噪音效应、最优贝叶斯推断、从尖锐最小值的逃逸率和几种包括阻尼牛顿法、自然梯度下降和 Adam 的二阶方法的稳态协方差等应用。
Dec, 2020
本文通过动态稳定性的角度研究了随机梯度下降法(SGD)的隐式正则化,并探讨了稳定的最小值对二层 ReLU 神经网络和对角线线性网络的广义性能影响,发现 SGD 的稳定性正则化较于 GD 更强,LR 越大效果越明显,解释了为什么 SGD 比 GD 更具普适性。
May, 2023
研究过参数化模型,标签噪音等对随机梯度下降中的正则化作用及其影响。
Jun, 2021
本文研究隐式偏差和隐式正则化对随机凸优化中随机梯度下降的影响,提供了一种简单构造来排除控制 SGD 泛化能力的分布独立的隐式正则化器的存在,并且证明了分布依赖的一般类隐式正则化器不能解释泛化的学习问题,说明了仅仅通过隐式正则化的特性来全面解释算法的泛化性能存在重大困难。
Mar, 2020