均匀随机权重生成非均匀偏差：典型插值神经网络泛化时具有狭窄的教师

Feb, 2024

均匀随机权重生成非均匀偏差：典型插值神经网络泛化时具有狭窄的教师

How Uniform Random Weights Induce Non-uniform Bias: Typical Interpolating Neural Networks Generalize with Narrow Teachers

PDF

Gon Buzaglo, Itamar Harel, Mor Shpigel Nacson, Alon Brutzkus, Nathan Srebro...

TL;DR通过证明，我们发现基于狭窄的 “教师神经网络” 存在时，随机的神经网络插值器通常具有很好的泛化能力。具体而言，我们显示出这种对神经网络参数化的 “平坦” 先验在神经网络函数上引发丰富的先验，这是由于神经网络结构中的冗余性引起的。特别是，这会导致对于更简单的函数具有偏好，这些函数需要较少的相关参数来表示，以实现与教师相当数量的参数（大致上是非冗余参数的数量）相关的样本复杂度的学习。

Abstract

Background. A main theoretical puzzle is why over-parameterized Neural Networks (NNs) generalize well when trained to zero loss (i.e., so they interpolate the data). Usually, the NN is trained with Stochastic Gradient Descent (SGD) or one of its variants. However, recent empirical work examined the →

over-parameterized neural networks generalization stochastic gradient descent prior over the nn functions sample complexity

发现论文，激发创造

神经红移：随机网络不是随机函数

神经网络的归纳偏见和简单性偏见对于深度学习的成功是重要的，可以通过不同的架构进行控制。

Mar, 2024

神经网络中良性过拟合现象的理解探讨

本研究探讨了现代机器学习模型中广泛存在的过度拟合现象及理论预测，表明超学习风险会在满足一定条件的情况下逐渐减小，并且在两层神经网络中使用 ReLU 激活函数的情况下具有近最小化学习率的能力。同时，还发现当网络参数数量超过 O (n^2) 时，超学习风险开始增加，这与最近的实证结果相符。

Jun, 2021

强归纳偏置可证明防止无害插值

本文通过研究感知偏差的强度程度，探讨了过度拟合噪声现象所谓 “良性过度拟合” 或 “无害插值” 时的影响因素，给出了高维卷积核回归收敛界限的紧密非渐进限制，并提供了旋转不变性差异的不同滤波器尺寸深度神经网络的经验证据。

Jan, 2023

神经网络中的插值相变：懒惰训练下的记忆和泛化

在神经切向（NT）区域的背景下，研究了过参数化现象和它们的推广误差特征，揭示了经验 NT 内核的特征并且证明了测试误差可以被无穷宽内核的核岭回归误差很好地近似。

Jul, 2020

过度拟合还是完美拟合？插值分类和回归规则的风险界限

本文分析局部插值方案，包括几何单纯插值算法和单一加权 k 近邻算法，在分类和回归问题中证明了这些方案的一致性或近一致性，并提出了一种解释对抗性示例的方法，同时讨论了与核机器和随机森林的一些联系。

Jun, 2018

回归中的无害噪声数据插值

本研究探讨了深度神经网络在训练数据含有噪声且参数个数超过数据点个数时，仍能够实现零训练误差且具有泛化能力的机制，并阐述了过拟合和特征选择不佳对泛化能力的影响。

Mar, 2019

统一收敛的辩护：通过去随机化来实现泛化，应用于插值预测器

本研究提出通过基于替代学习模型以及条件概率分布进行去随机化以及降噪，提高对于交叉验证数据集的分类效果。

Dec, 2019

深度神经网络的惰性训练下的良性过拟合

该论文探讨和证明了过参数化的深度神经网络利用懒惰训练策略可以实现贝叶斯最优测试误差，同时获得（几乎）零训练误差，并提出了三个相关概念的统一。

May, 2023

最近邻算法中插值的优势

本研究通过研究最近邻算法的类等权重方案，量化了数据内插法的好处，并证明了数据内插法可以在最佳 kNN 算法的基础上具有更好的预测精度和统计稳定性，在解释二次下降现象方面提供了理论依据。

Sep, 2019

在无限宽度极限下探究神经网络隐式先验的不确定性特性

本文研究深度学习模型的不确定性估计问题，基于神经网络高斯过程构建了一个概率模型，能够更好地校准模型并比较有限和无限宽模型的表现差异，同时也考虑了分类问题和迁移学习等实际应用场景。

Oct, 2020