Oct, 2023
高概率收敛界限在重尾噪声下的非线性随机梯度下降
High-probability Convergence Bounds for Nonlinear Stochastic Gradient
Descent Under Heavy-tailed Noise
TL;DR通过研究一类广泛的非线性随机梯度下降方法在高概率下的收敛界限,我们证明了对于具有Lipschitz连续梯度的强凸损失函数,即使在噪声具有重尾分布的情况下,也能实现失败概率的对数依赖性,这对于任何具有有界(逐分量或联合)输出的非线性性质(如剪切、归一化和量化)都是成立的,与以往对于具有重尾噪声的研究相比,我们的研究结果在噪声的矩阶限制上得以松弛。