Nov, 2023

标签噪声随机梯度下降的泛化界

TL;DR我们在非凸设置下,使用均匀耗散和平滑条件对带有标签噪声的随机梯度下降(SGD)进行了泛化误差界限的研究。在合适的半度量选择下,我们建立了依赖于参数维度$d$的标签噪声随机梯度流的Wasserstein距离压缩。利用算法稳定性框架,我们推导出了具有恒定学习率的离散化算法的时间独立泛化误差界限。我们所实现的误差界限与$d$的多项式和$n^{-2/3}$的速率成多项式比例,其中$n$是样本大小。这个速率比在类似条件下使用参数无关高斯噪声的随机梯度朗之万动力学(SGLD)的已知最优速率$n^{-1/2}$更好。我们的分析提供了关于标签噪声影响的定量洞察。