Oct, 2024

从梯度裁剪到归一化的重尾随机梯度下降

TL;DR本文探讨了在重尾梯度噪声环境下,传统梯度裁剪方法的局限性,尤其是其对裁剪阈值的依赖。我们提出了归一化随机梯度下降(NSGD),并证明了其在样本复杂度和高概率收敛性方面的优越性,提供了一种改进现有算法的替代机制。