Nov, 2023

过度参数化对锐度感知最小化的影响:实证与理论分析

TL;DR训练过参数的神经网络可以得到相同训练损失水平但具有不同泛化能力的极小值。本文分析了过参数化对锐度感知最小化策略(SAM)行为的关键影响,并提供了经验和理论结果,表明过参数化对 SAM 具有重要影响。具体而言,我们证明了在随机设置中 SAM 可以实现线性收敛速度,并且发现 SAM 找到的具有线性稳定性的极小值相比 SGD 更加平坦且具有更均匀分布的 Hessian 矩。我们的实验结果进一步表明,随着模型过参数化程度的增加,SAM 的泛化性能持续改善。我们还展示了稀疏性在实践中为有效的过参数化提供了途径。