May, 2023

渐进锐化、平坦最小值和泛化

TL;DR我们提出了一种新的方法来理解深度学习中损失曲率和泛化之间的关系,特别地,我们使用深度网络损失 Hessian 频谱的现有经验分析来基于一个猜想将深度神经网络的损失 Hessian 和输入输出 Jacobian 联系在一起。我们证明了一系列理论结果,这些结果量化了模型的输入输出 Jacobian 在数据分布上近似其 Lipschitz 范数的程度,并在经验 Jacobian 的术语中推导出一个新的泛化界限。我们使用我们的猜想以及我们的理论结果来提供一个关于最近观察到的渐进锐化现象以及平坦极小值的泛化特性的新解释。我们提供了实验证据来验证我们的论点。