小批次随机梯度下降和局部随机梯度下降的稳定性与泛化能力
本文证明使用随机梯度方法训练的参数模型少迭代次数即可实现消失的泛化误差,提供了新的对于随机梯度方法多周期泛化性能好的解释,对于神经网络的训练也有新的稳定性解释。
Sep, 2015
本文通过建立黑盒稳定性结果,仅依赖于学习算法的收敛和损失函数最小值周围的几何形态,为收敛到全局最小值的学习算法建立新的泛化界限,适用于满足Polyak-Lojasiewicz(PL)和二次增长(QG)条件的非凸损失函数以及一些具有线性激活的神经网络,并使用黑盒结果来证明SGD、GD、RCD和SVRG等优化算法的稳定性在PL和强凸设置中具有可拓展性,同时指出存在简单的具有多个局部最小值的神经网络,在PL设置下SGD稳定,但GD不稳定。
Oct, 2017
本论文证明了局部随机梯度下降算法在凸问题上能够以与小批量随机梯度下降算法相同的速率收敛,并且与工人数量和小批量大小呈线性加速关系,其中通信轮数可以减少长达T ^ {1/2}个因子。
May, 2018
本文研究了局部 SGD(也称为并行 SGD 和联邦平均),一个自然且常用的随机分布式优化方法。在凸设置中,我们证明了局部 SGD 严格优于小批量 SGD,并且加速局部 SGD 在凸二次目标上是最小极值最优的。同时,我们还提供了总体上至少有时优于小批量 SGD 的第一个保证,并展示了局部 SGD 存在一种性能下限,比小批量 SGD 保证更差。
Feb, 2020
本文研究异构分布共享的随机梯度下降优化问题,通过对比Local SGD和Minibatch SGD,得到加速的Minibatch SGD是解决高异质性问题的最优方法,并提出了第一个比Minibatch SGD更好的Local SGD的上界解。
Jun, 2020
本文提供了一种算法——随机梯度下降的稳定性和泛化性的细致分析,通过消除梯度有界性、减轻光滑性和凸性函数的限制,提出了新的稳定性度量,并开发了受 SGD 迭代的风险控制的新型约束,给出了受最佳模型行为影响的泛化范围,从而在低噪声环境下使用稳定性方法得到了第一个快速上界。
Jun, 2020
本论文提出了分散化随机梯度下降法的新方法,并使用(非)凸优化理论建立了第一个针对分散化随机梯度下降法的稳定性和泛化保证。我们的理论结果基于少数常见且温和的假设,并揭示分散化将首次降低SGD的稳定性。通过使用多种分散化设置和基准机器学习模型,证实了我们的理论发现。
Feb, 2021
分析随机梯度下降中,小批量抽样引起的噪声和波动,揭示了大学习率可以通过引入隐含的正则化来帮助泛化的内在规律,并且可以提供一种理解随机梯度下降离散时序性对其功率规律现象的影响。
Feb, 2021
我们研究了分布式随机梯度上升下降(D-SGDA)算法的原始-对偶广义界限,通过算法稳定性方法,在凸凹和非凸非凹环境下对分布式最小最大算法的广义界限进行了改进。我们的理论研究表明,分布式结构不会破坏D-SGDA的稳定性和广义化能力,在某些情况下可以实现和普通SGDA相同的广义化能力。此外,我们还评估了凸凹设定下D-SGDA算法的优化误差,并将其与广义间隙相平衡,以获得最佳的总体风险。最后,我们进行了多项数值实验来验证我们的理论发现。
Oct, 2023