Jul, 2023

尖锐度最小化算法不仅仅通过最小化尖锐度来达到更好泛化

TL;DR尽管进行了广泛的研究,但超参数化神经网络为何能够泛化的根本原因仍然不清楚。本研究通过理论和实证研究指出,对于两层 ReLU 网络,(1)平坦确实意味着泛化;(2)存在不泛化的最平坦模型,锐度最小化算法无法泛化;(3)最令人惊讶的是,存在不泛化的最平坦模型,但锐度最小化算法仍然可以泛化。我们的结果表明,锐度与泛化之间的关系微妙地依赖于数据分布和模型架构,锐度最小化算法不仅通过最小化锐度来实现更好的泛化。这需要寻找超参数化神经网络泛化的其他解释。