May, 2024

SAM 对标签噪声具有鲁棒性的原因

TL;DRSharpness-Aware Minimization 对标签噪声鲁棒性的理解需要考虑到对误差曲面中 “较平坦” 区域最小值的鲁棒性以及提前停止对峰值性能的影响。通过对 logit 项和网络 Jacobian 的改变进行分解,我们推断深层网络中的 SAM 效果完全由其对网络 Jacobian 的影响解释,进一步推导了这种 Jacobian 效果在两层线性网络中引发的隐式正则化效应。受我们分析的启发,我们发现在真实数据集上训练的深度网络中,明确引入这些正则化效应的成本更低的 SAM 替代方法在很大程度上恢复了优势。