Jan, 2024

被忽略的Hessian成分解释了在锐度正则化中的谜团

TL;DR最近的研究表明,诸如SAM之类的方法能够明确或隐含地对二阶信息进行惩罚,从而提高深度学习的泛化能力。然而,权重噪声和梯度惩罚等看似类似的方法通常无法提供这样的好处。本文通过损失函数的海塞矩阵结构展示了这些差异可以得到解释。首先,我们展示了海塞矩阵的一个常见分解可以定量解释特征的利用和探索。探索特征可以由非线性建模误差矩阵(NME)来描述,在插值时通常被文献中忽略。我们的工作表明,NME实际上是重要的,因为它可以解释为什么梯度惩罚对激活函数的选择敏感。利用这一洞见,我们设计了改进性能的干预措施。我们还提供证据挑战了长期以来权重噪声和梯度惩罚的等价性。这种等价性依赖于可以忽略NME的假设,但我们发现这一假设对于现代网络并不成立,因为它们涉及显著的特征学习。我们发现,正则化特征的利用而不是探索能够获得与梯度惩罚相似的性能。