Feb, 2024

均值随机梯度下降中的重尾出现

TL;DR通过对连续扩散逼近的随机梯度下降进行分析,我们发现它在渐近意义下表现出重尾分布,并给出了尾指数的上下界。我们通过数值实验验证了这些界限,并显示它们通常是 SGD 迭代的经验尾指数的近似。此外,这些界限的显式形式使我们能够量化优化参数与尾指数之间的相互作用,这对于研究神经网络的广义性能和 SGD 避免次优局部极小值的能力的关联问题具有重要意义。