带剪辑的非凸随机优化的高概率分析
本文通过引入一个新的假设 $(L_0, L_1)$-smoothness,系统研究了剪枝算法的一般框架及其在深度学习任务中的应用,提出了一种将动量方法结合剪枝算法的通用框架,并在确定性和随机性设置下对其进行了收敛性分析,结果表明剪枝算法的效率即使在非平滑的领域中也不会退化。
Oct, 2020
本研究讨论了使用第一阶梯度算法进行的非凸随机优化问题,其中梯度估计可能具有重尾特征,结果表明梯度剪裁,动量和归一化梯度下降的组合可以在高概率下收敛于关键点,特别适用于光滑损失的已知最佳速率,适用于任意光滑度规范,并针对克服该领域二阶光滑损失引发的问题进行讨论。
Jun, 2021
本文提出了一种修剪随机梯度(子)梯度法(SGD)的收敛性研究,特别是对于具有快速增长次梯度的非光滑凸函数。研究表明,修剪对 SGD 的稳定性有益,并且修剪 SGD 算法在许多情况下具有有限的收敛速率。同时,我们还研究了带有动量的修剪方法的收敛性,并展示了新的 Lyapunov 分析证明了该方法在这类问题中具有最佳的收敛速率。数值结果验证了理论结果。
Feb, 2021
本文提出了一种新的加速随机一阶方法 clipped-SSTM,该方法通过剪辑随机梯度结合特殊变体的随机梯度下降法,用于解决具有重尾分布噪声的光滑凸随机优化问题,并推导出了该方法的第一个高概率复杂度界限,证明了其优于同类方法。
May, 2020
引入了一种剪裁策略,使用梯度范数的分位数作为剪裁阈值,为平滑目标(凸或非凸)提供鲁棒且高效的优化算法,容忍重尾样本和数据中的异常值,数学分析说明了其收敛性质以及对初始估计误差的高概率界限,并通过实验证实了其高效性和鲁棒性。
Sep, 2023
基于梯度剪裁的随机一阶优化方法在噪声假设温和的情况下引起了很大关注。我们提出了新的用于复合和分布式优化的随机方法,并证明了这些方法的紧密高概率收敛结果(包括几乎最优的结果)。同时,我们还针对复合和分布式变分不等式开发了新的方法,并分析了这些方法的高概率收敛性。
Oct, 2023
通过研究一类广泛的非线性随机梯度下降方法在高概率下的收敛界限,我们证明了对于具有 Lipschitz 连续梯度的强凸损失函数,即使在噪声具有重尾分布的情况下,也能实现失败概率的对数依赖性,这对于任何具有有界(逐分量或联合)输出的非线性性质(如剪切、归一化和量化)都是成立的,与以往对于具有重尾噪声的研究相比,我们的研究结果在噪声的矩阶限制上得以松弛。
Oct, 2023
通过实例推导得到一个新的平滑度条件 - 梯度平滑度随着梯度范数增大而增大,进一步推出了一种新的梯度平滑弱化条件,这使得旧行业标准的梯度下降优化算法可以进行改进。我们证明,这种新条件下的梯度削减和标准化梯度方法的收敛速度可任意加快,并在流行的神经网络训练环境下进行了实证验证。
May, 2019