对于几乎所有常见和现实设置,本论文旨在提供一种统一的理论来上界核回归的超额风险。通过提供适用于常见核函数和任意正则化、噪声、输入维度和样本数量的严格界限,并提供核矩阵特征值的相对扰动界限,揭示了核矩阵的特征值尾部分布形成一种隐式正则化现象,从而实现良好的泛化。本研究的结果适用于高输入维度的良性过拟合、固定维度的近似过拟合以及正则化回归的明确收敛速率。
Dec, 2023
本文使用后验预测检测框架,提出了一种简单但有效的解决方案,用于同时拟合神经网络映射从随机变量到一个服从高斯分布的变量的均值和方差。这种方法有效地规范了方差,保持或优于现有模型可能性,同时显著提高了回归和 VAEs 的参数校准和样本质量。
Jun, 2020
本文通过随机矩阵理论和线性模型中的准确解,研究了使用梯度下降训练的大型神经网络的泛化动态,发现梯度下降学习的动态自然地保护了大型网络免受过度训练和过拟合的影响,当自由参数的有效数量等于样本数量时,网络过度训练最严重,大小的适当调整可以减少网络过度训练,另外,高维域下,低泛化误差需要从小的初始权重开始。此外,本文还发现了两个新的现象:在梯度下降过程中存在一个冻结的权重子空间,而高维状态的统计特性可保护免受过度训练的影响。
Oct, 2017
本文研究了超参数化神经网络在存在随机噪声的情况下恢复真实目标函数的能力,证明了采用 L2 正则化的神经网络与相应的神经切线核的核岭回归输出相似,并可以实现 L2 估计误差的最佳最小值,数值实验证实了该理论,同时表明 L2 正则化方法提高了训练的鲁棒性并适用于更广泛的神经网络。
Jul, 2020
本研究探讨了过参数化模型在插值噪声数据时的行为,分析了数据的协方差结构和高效秩的子空间是如何影响该现象的发生,并提供了正则化条件下的结果。
Sep, 2020
我们研究了常见损失曲面的性质,并针对深度学习,通过 Hessian 矩阵的谱将其分为两个部分,并证明了 Sagun 等人所述的猜想。我们的观察结果对高维度的非凸优化具有重要意义,并提出了新的基于超参数冗余的几何角度视角。
Jun, 2017
通过研究神经网络的超参数化和过拟合对梯度下降算法鲁棒性的影响,我们证明了过度参数化会引入伪平衡点,阻碍梯度下降算法的收敛。
May, 2023
本文通过引入梯度间隙偏差和梯度偏转等统计量,从理论和实证角度研究了内隐正则化在 ReLU 神经网络中的运作方式,结果表明通过随机初始化和随机梯度下降的方式有效地控制网络输出,使其在样本之间直线插值且负责度较低。
Mar, 2019
本研究提出一种对轻量级贝叶斯神经网络(BNN)进行抽样无关变分推断的简单框架,通过将异方差预测不确定性和经验差异嵌入到学习得到的 BNN 参数的方差中,提高了预测性能。
Feb, 2024
非参数方法估计部分导数与稀疏深度神经网络的参数估计结合,为深度神经网络的可解释性提供了有前景的研究结果。
Jun, 2024