分散随机梯度下降的稳定性和泛化能力
本文证明使用随机梯度方法训练的参数模型少迭代次数即可实现消失的泛化误差,提供了新的对于随机梯度方法多周期泛化性能好的解释,对于神经网络的训练也有新的稳定性解释。
Sep, 2015
我们为随机梯度下降(SGD)建立了数据相关的算法稳定性概念,并利用它来开发新的泛化界限;我们的结果表明,在凸和非凸问题中,预筛选初始化是稳定SGD的一种简单数据驱动策略,并允许我们展示出乐观的泛化界限。
Mar, 2017
本文提供了一种算法——随机梯度下降的稳定性和泛化性的细致分析,通过消除梯度有界性、减轻光滑性和凸性函数的限制,提出了新的稳定性度量,并开发了受 SGD 迭代的风险控制的新型约束,给出了受最佳模型行为影响的泛化范围,从而在低噪声环境下使用稳定性方法得到了第一个快速上界。
Jun, 2020
本文研究了节点网络上的去中心化在线随机非凸优化。通过将梯度跟踪技术集成到去中心化随机梯度下降中,我们证明了该算法具有一定的优势,并分析了其有效性和性能。同时,对于满足Polyak-Lojasiewics条件的全局非凸函数,我们确定了GT-DSGD的线性收敛性,并且在几乎每条路径上具有最优的全局亚线性收敛速度。
Aug, 2020
通过算法稳定性的视角,对凸凹和非凸非凹情形下的随机梯度方法在极小极大问题中的泛化能力进行了全面的分析,建立了稳定性与泛化能力之间的定量联系。在凸凹情形下,稳定性分析表明了随机梯度下降算法对于平滑和非平滑的极小极大问题皆可达到最优的泛化界。我们还确定了泛函弱凸弱凹和梯度占主导地位的问题的泛化界。
May, 2021
研究了分散随机梯度下降(D-SGD)算法的算法稳定性和分布特性,证明了D-SGD认为的共识模型具有稳定性,证明了D-SGD具有一般化的可行性。D-SGD的可行性与谱间隙呈正相关,并且可以解释为什么最初的培训阶段的共识控制可以确保更好的一般化,这是 vanilla-D-SGD 的拓扑感知广义性的第一个工作。
Jun, 2022
本文提出 Decentralized Stochastic Gradient Descent 算法的泛化误差分析,并据此证明在凸设置下,不论选择哪种通信图,D-SGD算法的泛化界限与经典SGD算法相同,即前人论述的通信图对泛化的不利影响并不成立。
Jun, 2023
我们研究了分布式随机梯度上升下降(D-SGDA)算法的原始-对偶广义界限,通过算法稳定性方法,在凸凹和非凸非凹环境下对分布式最小最大算法的广义界限进行了改进。我们的理论研究表明,分布式结构不会破坏D-SGDA的稳定性和广义化能力,在某些情况下可以实现和普通SGDA相同的广义化能力。此外,我们还评估了凸凹设定下D-SGDA算法的优化误差,并将其与广义间隙相平衡,以获得最佳的总体风险。最后,我们进行了多项数值实验来验证我们的理论发现。
Oct, 2023