通过利用雅可比矩阵的低秩结构实现神经网络的泛化保证
本文通过随机矩阵理论和线性模型中的准确解,研究了使用梯度下降训练的大型神经网络的泛化动态,发现梯度下降学习的动态自然地保护了大型网络免受过度训练和过拟合的影响,当自由参数的有效数量等于样本数量时,网络过度训练最严重,大小的适当调整可以减少网络过度训练,另外,高维域下,低泛化误差需要从小的初始权重开始。此外,本文还发现了两个新的现象:在梯度下降过程中存在一个冻结的权重子空间,而高维状态的统计特性可保护免受过度训练的影响。
Oct, 2017
本研究通过对深度学习模型的多方面度量,特别是模型对输入扰动的敏感性度量,研究了大规模的、过度参数化的神经网络与小规模的夹杂网络的复杂度与泛化之间的紧张关系,并得出结论:训练的神经网络在其训练数据范围内更加鲁棒,这种鲁棒性与泛化能力有关联,而诸如数据扩增和修正线性单元等好的泛化因素会带来更强的鲁棒性。
Feb, 2018
本研究 对二层神经网络模型的梯度下降动态进行了较全面的分析,并考虑了在更新两个层的参数时,一般的初始化方案以及网络宽度和训练数据大小的一般方案。在过度参数化的情况下,梯度下降动态可以快速地达到零训练损失,无论标签的质量如何。此外,证明了神经网络模型所表示的函数始终与核方法的函数保持一致。对于网络宽度和训练数据大小的一般值,建立了适当的再生核 Hilbert 空间的目标函数的尖锐估计。
Apr, 2019
我们在神经网络函数空间中基于神经切向核和 Fisher 信息矩阵的特征分解,对一种改进的自然梯度下降方法进行理论分析。我们首先在假设高斯分布和无穷宽度限制下给出了该改进自然梯度学习到的函数的解析表达式。接着,我们利用特征分解和统计理论的理论方法,明确地推导了学习到的神经网络函数的泛化误差。通过将泛化误差分解为函数空间中不同特征空间的总和,我们提出了一个平衡训练集和真实数据之间分布差异引起的误差的准则。通过这种方法,我们证明了在函数空间中修改神经网络的训练方向会降低总的泛化误差。此外,我们证明了这个理论框架能够解释许多现有的泛化增强方法的结果。我们还通过合成数据的数值例子对这些理论结果进行了说明。
Jul, 2023
利用自由概率理论,对深度网络输入 - 输出 Jacobian 谱的结构进行研究,探讨非线性、权值、偏置分布、深度等超参数对 Jacobian 谱的影响。我们发现,不同的非线性函数都符合一些新的普适极限谱分布,即使深度接近无穷,这些分布也可以牢固地集中于 1 附近,从而可以为深度网络的设计提供重要的指导。
Feb, 2018
本研究通过开发理论工具来分析 Hessian 映射的范围,提供了深度线性网络 Hessian 级别的确切公式和紧密的上限,以及其冗余程度的原因,从而深入探究了过参数化网络中冗余的来源和程度。
Jun, 2021
探究 Tensor Singular Value Decomposition (t-SVD) 理论上对于 Neural Networks with t-product layers (t-NNs) 的影响,研究发现使用 exact transformed low-rank parameterization 的 t-NNs 能够提高其对于 adversarial generalization 的性能,并且即使 t-NNs 很少有完全 transformed low-rank weights,也可以通过 gradient flow (GF) 的 adversarial training 得到类似的效果,表明 transformed low-rank parameterization 在一定条件下可以提高 t-NNs 的鲁棒泛化性能。
Mar, 2023
研究发现,神经网络在存在噪声或不正确标签的情况下,往往会记住有关噪声的信息。为了减少这种记忆现象,提高泛化能力,本文提出使用一个辅助网络来训练,并利用 Shannon 互信息量化记忆的信息量。在 MNIST、CIFAR-10、CIFAR-100 和 Clothing1M 等数据集上验证了该算法的有效性。
Feb, 2020
该论文研究了如何通过梯度下降学习结构化权重矩阵的一般化和可微分的框架,以取代常见神经网络模型中不透明的、层与层之间可能不同的密集矩阵,从而构建高性能且复杂度较低的高效深度神经网络。
Oct, 2023
该研究采用无穷宽度分析,证明了深度神经网络及其雅可比矩阵初始条件下,当隐藏层宽度趋近无穷时,它们共同收敛于高斯过程,并通过一种线性一阶常微分方程描述了在所谓鲁棒训练下的多层感知机演化,该方程由一种神经切向核的变体决定。实验证明了理论断言与宽有限网络的相关性,并通过核回归解析研究雅可比矩阵正则化的性质。
Dec, 2023