神经网络的泛化误差的高维动态

Oct, 2017

High-dimensional dynamics of generalization error in neural networks

Madhu S. Advani, Andrew M. Saxe

TL;DR本文通过随机矩阵理论和线性模型中的准确解，研究了使用梯度下降训练的大型神经网络的泛化动态，发现梯度下降学习的动态自然地保护了大型网络免受过度训练和过拟合的影响，当自由参数的有效数量等于样本数量时，网络过度训练最严重，大小的适当调整可以减少网络过度训练，另外，高维域下，低泛化误差需要从小的初始权重开始。此外，本文还发现了两个新的现象：在梯度下降过程中存在一个冻结的权重子空间，而高维状态的统计特性可保护免受过度训练的影响。

Abstract

We perform an average case analysis of the generalization dynamics of large neural networks trained using gradient descent. We study the practically-relevant "→

发现论文，激发创造

重新思考泛化需要重新审视旧观念：统计力学方法和复杂学习行为

本文介绍了一种超越当前流行的最坏情况的理论控制框架，重新审视神经网络的统计力学的古老理论，并使用一个名为VSDL的模型来描述当算法过早停止或输入加噪声时会增加的温度和减少的数据量对深度神经网络的控制效果，进而提供了关于其过度拟合训练数据、学习算法波动和转变的一种新的定性描述。

Oct, 2017

深度学习理论III：解释非过拟合谜题

该研究探讨深度网络中的过拟合问题，发现梯度下降在非线性网络中的优化动力学与线性系统是等价的，同时也推广了梯度下降的两个性质到非线性网络中：隐式正则化以及最小范数解的渐近收敛，通过这些性质，可以提高模型的泛化能力，同时在分类任务中也能得到较好的分类误差。

Dec, 2017

神经网络中的灵敏度和泛化性：一项实证研究

本研究通过对深度学习模型的多方面度量，特别是模型对输入扰动的敏感性度量，研究了大规模的、过度参数化的神经网络与小规模的夹杂网络的复杂度与泛化之间的紧张关系，并得出结论：训练的神经网络在其训练数据范围内更加鲁棒，这种鲁棒性与泛化能力有关联，而诸如数据扩增和修正线性单元等好的泛化因素会带来更强的鲁棒性。

Feb, 2018

学习的动态性：一种随机矩阵方法

本文介绍了基于随机矩阵的框架来分析单层线性网络在大维度和规模数据上通过梯度下降训练的学习动态，并对神经网络中的过拟合、早停和训练初始化等问题提供了深入的见解，为进一步研究今天神经网络中出现的更复杂的结构和模型打开了大门。

May, 2018

深度线性网络中泛化动态和迁移学习的分析理论

研究了在深度学习中的泛化难题，发展了一个解决泛化问题的解析理论，并探讨了多任务学习和跨任务学习的知识迁移方法。

Sep, 2018

过参数化的两层神经网络的优化与泛化的细粒度分析

该论文分析了一个简单的2层ReLU网络的训练和泛化，通过对相关内核的特性进行追踪，提出了更紧致的训练速度特征描述和网络大小无关的泛化界限以及对梯度下降训练的广泛平滑函数可学性的证明。

Jan, 2019

学习超参数化深度ReLU网络的梯度下降泛化误差界

通过算法依赖的综合误差界推导，论文解释了过度参数化的深度神经网络在合适的随机初始化下，使用梯度下降法可以获得任意小的泛化误差。

Feb, 2019

深度网络中的动力学和泛化理论 III

本研究通过分析深度神经网络的梯度下降技术实现，提出了控制网络复杂度的隐含规范化方法，并将其归纳为梯度下降算法的内在偏差，说明这种方法可以解决深度学习中过拟合的问题。

Mar, 2019

通过利用雅可比矩阵的低秩结构实现神经网络的泛化保证

本文探讨了神经网络架构的泛化能力，发现训练和泛化在整洁和结构化的数据集上很容易，在嘈杂和非结构化的数据集上则更难。通过使用“信息”空间和“噪声”空间，本文证明了即使是常数宽度的神经网络，对于足够好的数据集也可以证明泛化。

Jun, 2019

不仅仅是玩具：随机矩阵模型预测现实世界神经表示如何泛化

研究了机器学习模型泛化的定量现象，发现基于核回归的大规模神经网络和真实数据的核函数理论分析往往无法捕捉到这些现象，然而基于GCV估算器的实证研究结果表明该方法可以在这种超参数化的情境下准确预测泛化风险，并证明了GCV估算器在满足局部随机矩阵定理时总是可以收敛到泛化风险，最后应用这个随机矩阵理论解释了为什么预训练表示的泛化性更好以及什么因素支配了核回归的放缩定律，该研究揭示了随机矩阵理论对于理解神经表征的性质至关重要。

Mar, 2022