学习神经网络的双峰现象

Jan, 2024

The twin peaks of learning neural networks

Elizaveta Demyanenko, Christoph Feinauer, Enrico M. Malatesta, Luca Saglietti

TL;DR神经网络的广义化误差存在双下降现象，高度过参数化的模型能够避免过拟合并实现良好的测试性能，与统计学习理论所描述的标准偏差 - 方差权衡相违背。本研究探索了这一现象与神经网络所表示的函数的复杂性和敏感性之间的联系，特别关注随机特征模型的简单教师 - 学生设置，利用重复方法进行理论分析，给出了布尔平均维数的解释性表达式，在数据点数目、特征数目和输入尺寸趋近无穷大的高维情况下导出。我们发现，随着网络过参数化程度的增加，布尔平均维数在插值阈值处达到峰值，与广义化误差峰值相对应，然后缓慢趋于一个较低的渐近值。在不同模型类别和训练设置的数值实验中得出相同的现象学现象。此外，我们经验性地发现，对抗初始化的模型往往具有较高的布尔平均维数值，而对抗攻击更强大的模型则显示出较低的布尔平均维数。

Abstract

Recent works demonstrated the existence of a double-descent phenomenon for the generalization error of neural networks, where highly overp

double-descent phenomenon neural networks generalization error boolean mean dimension overparameterization

发现论文，激发创造

神经网络的泛化误差的高维动态

本文通过随机矩阵理论和线性模型中的准确解，研究了使用梯度下降训练的大型神经网络的泛化动态，发现梯度下降学习的动态自然地保护了大型网络免受过度训练和过拟合的影响，当自由参数的有效数量等于样本数量时，网络过度训练最严重，大小的适当调整可以减少网络过度训练，另外，高维域下，低泛化误差需要从小的初始权重开始。此外，本文还发现了两个新的现象：在梯度下降过程中存在一个冻结的权重子空间，而高维状态的统计特性可保护免受过度训练的影响。

Oct, 2017

高维神经切向核：三倍下降与广义化的多尺度理论

深度学习模型参数通常大于所需，然而其测试误差在过拟合阈值附近有极值和下降，在过参数化区间反而下降，神经切向核模型可以提供有关真实神经网络的细节。

Aug, 2020

深度学习中的双下降现象理解

将经验风险最小化与容量控制结合是机器学习中控制泛化差距和避免过拟合的经典策略。然而，在现代深度学习实践中，非常庞大的超参数化模型（例如神经网络）被优化以完美拟合训练数据，并且仍然具有出色的泛化性能。在插值点之后，增加模型复杂性似乎实际上降低了测试误差。本教程解释了双重下降的概念及其机制，并引入了具有关键作用的归纳偏差，通过选择一种平滑的经验风险最小化器，从多个插值解决方案中选择一个。最后，第三部分探讨了两个线性模型中的双重下降，并从最近相关的工作提供了其他视角。

Mar, 2024

随机特征回归的泛化误差：精确渐近性和双下降曲线

本文考虑使用随机特征空间，在测度无限趋近于无限，特征维度和样本量趋近于无穷大的情况下，利用结果回归模型和双下降现象等关键词解释深度学习模型中的奇妙现象。

Aug, 2019

双峰下的双重麻烦：懒惰模式中的偏差与方差

研究发现，通过过度参数化，深度神经网络能够在插值训练数据的同时实现卓越的泛化性能，并且在测试误差上具有双下降现象，该现象可以通过集成平均估计器进行抑制。

Mar, 2020

神经网络中的内在维数、持久同调和泛化

通过利用拓扑数据分析，我们建立了一个通用的计算工具，可以有效地计算深度神经网络的内在维度，从而预测其泛化错误。我们发现，误差可以用所谓的 “持久同调维数” 来等价限制，同时不需要对训练动力学进行任何额外的几何或统计假设，并且进一步提供可视化工具来帮助理解深度学习中的泛化。

Nov, 2021

神经网络中良性过拟合现象的理解探讨

本研究探讨了现代机器学习模型中广泛存在的过度拟合现象及理论预测，表明超学习风险会在满足一定条件的情况下逐渐减小，并且在两层神经网络中使用 ReLU 激活函数的情况下具有近最小化学习率的能力。同时，还发现当网络参数数量超过 O (n^2) 时，超学习风险开始增加，这与最近的实证结果相符。

Jun, 2021

Triple descent 和两种过拟合：何时何处出现？

本文研究深度学习中的双下降现象，即当训练样本数 N 接近模型参数数 P 或者输入维度 D 时，神经网络的泛化误差会出现峰值，本文提供了理论解释，并探讨了非线性对此现象的影响及正则化方法的应用。

Jun, 2020

理解双重下降需要进行精细的偏差 - 方差分解

通过对方差进行可解释的对称分解，探讨了深度学习算法的偏差与方差之间的关系，发现随着网络宽度的增加，偏差单调下降，但方差存在非单调行为，并可以通过集成学习消除互作用导致的方差发散。

Nov, 2020

具有最大平均差异正则化的贝叶斯神经网络

本文提出了一种基于最大均值差异的理解下界（ELBO）的变体，该下界替代了 KL 散度，取得了比现有技术更高的多个基准测试结果，包括多个图像分类任务。此外，本文还提出了一种新的估算给定预测的不确定性的公式，并表明该公式对抗攻击和输入噪声具有更强的健壮性。

Mar, 2020