随机梯度下降对于配对学习的稳定性和优化误差分析
提出一种基于平均隐式(averaged implicit)随机梯度下降的迭代过程,旨在解决参数估计过程中的数值不稳定性和统计效率问题。实践证明这种方法比其他现有方法表现更为出色。
May, 2015
我们为随机梯度下降(SGD)建立了数据相关的算法稳定性概念,并利用它来开发新的泛化界限;我们的结果表明,在凸和非凸问题中,预筛选初始化是稳定SGD的一种简单数据驱动策略,并允许我们展示出乐观的泛化界限。
Mar, 2017
本文探讨了深度学习模型的一种优化方法——随机梯度下降在泛化能力上的稳定性,提出了一种基于梯度方差的稳定性指标,并在此基础上分别分析了常规非凸损失函数、梯度主导性损失函数和带强凸规则化器的问题,得到了一系列改进的泛化误差界。
Feb, 2018
分析迭代算法的收敛速度与稳定性之间的平衡问题,得出迭代算法总体表现是由最小二乘统计误差下界和稳定性共同决定的结论。以几种收敛速度较快的迭代算法为例,讨论了它们的稳定性上界和下界,并提出一些问题,说明改进收敛速度需要牺牲稳定性的平衡关系。
Apr, 2018
本研究为首次探讨随机梯度下降算法(SGD)在非光滑凸损失函数上的一致稳定性,得出了相关上下限并基于此获得了多项新且有用的泛化误差界限和差分隐私非光滑随机凸优化算法,且显著优于同类算法。
Jun, 2020
本文提供了一种算法——随机梯度下降的稳定性和泛化性的细致分析,通过消除梯度有界性、减轻光滑性和凸性函数的限制,提出了新的稳定性度量,并开发了受 SGD 迭代的风险控制的新型约束,给出了受最佳模型行为影响的泛化范围,从而在低噪声环境下使用稳定性方法得到了第一个快速上界。
Jun, 2020
本文研究机器遗忘问题,并确定算法稳定性的概念——总变差(TV)稳定性,通过噪声随机梯度下降(SGD)设计基于TV稳定算法的高效遗忘算法,为了了解准确性与遗忘效率之间的权衡,本文对凸风险最小化的TV稳定算法进行了上下界分析,该技术可以推广到任意非凸函数,而且算法具有差分隐私保护。
Feb, 2021
本文研究了采用“点损失+对损失”混合误差度量的点对学习(PPL)的泛化性质, 通过将算法稳定性的概念扩展到PPL设置,建立了均匀稳定PPL算法的高概率泛化界, 并通过发展对学习的稳定性分析技术,说明了PPL的随机梯度下降(SGD)和正则化风险最小化(RRM)的明确收敛速率。此外,也得到了换成平均稳定性的PPL的精细的泛化界限。
Feb, 2023
通过统计学习理论的算法稳定性角度,本文提供了随机组合梯度下降算法的稳定性和泛化分析,包括引入组合均匀稳定性的概念、建立其与复合优化问题泛化性能的定量关系、针对两种常用的随机组合梯度下降算法SCGD和SCSC建立组合均匀稳定性结果,并通过权衡稳定性结果和优化误差,导出了SCGD和SCSC的维度无关的超额风险界限。据我们所知,这是第一次关于随机组合梯度下降算法稳定性和泛化分析的结果。
Jul, 2023
我们研究了分布式随机梯度上升下降(D-SGDA)算法的原始-对偶广义界限,通过算法稳定性方法,在凸凹和非凸非凹环境下对分布式最小最大算法的广义界限进行了改进。我们的理论研究表明,分布式结构不会破坏D-SGDA的稳定性和广义化能力,在某些情况下可以实现和普通SGDA相同的广义化能力。此外,我们还评估了凸凹设定下D-SGDA算法的优化误差,并将其与广义间隙相平衡,以获得最佳的总体风险。最后,我们进行了多项数值实验来验证我们的理论发现。
Oct, 2023