Jan, 2024

学习神经网络的双峰现象

TL;DR神经网络的广义化误差存在双下降现象,高度过参数化的模型能够避免过拟合并实现良好的测试性能,与统计学习理论所描述的标准偏差 - 方差权衡相违背。本研究探索了这一现象与神经网络所表示的函数的复杂性和敏感性之间的联系,特别关注随机特征模型的简单教师 - 学生设置,利用重复方法进行理论分析,给出了布尔平均维数的解释性表达式,在数据点数目、特征数目和输入尺寸趋近无穷大的高维情况下导出。我们发现,随着网络过参数化程度的增加,布尔平均维数在插值阈值处达到峰值,与广义化误差峰值相对应,然后缓慢趋于一个较低的渐近值。在不同模型类别和训练设置的数值实验中得出相同的现象学现象。此外,我们经验性地发现,对抗初始化的模型往往具有较高的布尔平均维数值,而对抗攻击更强大的模型则显示出较低的布尔平均维数。