Oct, 2024

两层ReLU网络中的简单性偏差与优化阈值

TL;DR本文探讨了过参数化神经网络的泛化问题,传统方法通常基于插值观点,未能与更复杂的任务相适应。研究表明,在训练样本数超过某一优化阈值后,模型更倾向于向简单解收敛,而非简单插值,这一现象有助于改善模型的泛化能力,并显著降低测试损失。