本文提出了一种新的加速随机一阶方法clipped-SSTM,该方法通过剪辑随机梯度结合特殊变体的随机梯度下降法,用于解决具有重尾分布噪声的光滑凸随机优化问题,并推导出了该方法的第一个高概率复杂度界限,证明了其优于同类方法。
May, 2020
本文研究深度学习中涉及到隐私保护的问题,探讨了梯度裁剪在保证隐私的前提下防止 SGD 算法陷入局部极小值的作用,并提出了一种基于扰动的新技术用于解决梯度分布不对称问题。
Jun, 2020
分析了带偏差随机梯度方法的复杂性,特别是在非凸函数上的收敛性及更好的速率,探究了偏差大小对达到的准确性和收敛速率的影响,阐述了偏差梯度在分布式学习和无导数优化中的应用广泛性。
Jul, 2020
本文提出了一种修剪随机梯度(子)梯度法(SGD)的收敛性研究,特别是对于具有快速增长次梯度的非光滑凸函数。研究表明,修剪对SGD的稳定性有益,并且修剪SGD算法在许多情况下具有有限的收敛速率。同时,我们还研究了带有动量的修剪方法的收敛性,并展示了新的Lyapunov分析证明了该方法在这类问题中具有最佳的收敛速率。数值结果验证了理论结果。
Feb, 2021
本文研究了梯度裁剪在随机梯度下降中的应用,给出了裁剪阈值对收敛结果的影响和其上下界,进一步阐述了裁剪机制的缺陷及解决方案。
May, 2023
使用梯度裁剪技术在随机优化算法中研究梯度的截尾行为和其理论保证。
Jul, 2023
引入了一种剪裁策略,使用梯度范数的分位数作为剪裁阈值,为平滑目标(凸或非凸)提供鲁棒且高效的优化算法,容忍重尾样本和数据中的异常值,数学分析说明了其收敛性质以及对初始估计误差的高概率界限,并通过实验证实了其高效性和鲁棒性。
Sep, 2023
通过研究一类广泛的非线性随机梯度下降方法在高概率下的收敛界限,我们证明了对于具有Lipschitz连续梯度的强凸损失函数,即使在噪声具有重尾分布的情况下,也能实现失败概率的对数依赖性,这对于任何具有有界(逐分量或联合)输出的非线性性质(如剪切、归一化和量化)都是成立的,与以往对于具有重尾噪声的研究相比,我们的研究结果在噪声的矩阶限制上得以松弛。
Oct, 2023
通过研究剪裁在流式随机梯度下降中的应用,发现剪裁在某些噪声环境中可以提供性能优势,并讨论了高维剪裁与神经网络训练之间的联系。
Jun, 2024
本文探讨了在重尾梯度噪声环境下,传统梯度裁剪方法的局限性,尤其是其对裁剪阈值的依赖。我们提出了归一化随机梯度下降(NSGD),并证明了其在样本复杂度和高概率收敛性方面的优越性,提供了一种改进现有算法的替代机制。
Oct, 2024