深度线性网络中泛化动态和迁移学习的分析理论
本论文通过应用无序系统的统计物理学技术,对解决使用 softmax 输出和交叉熵损失的分类任务的深度神经网络的推广进行非线性动力学的分析,以理论上支持多任务学习表现由任务的噪声性以及输入特征对其的对齐程度来决定的直觉。
Oct, 2019
通过对深度线性神经网络的学习动态进行系统分析,我们发现这些网络表现出类似于非线性神经网络的非线性学习现象,包括长时间的平原,然后快速转换到更低误差的解决方案,以及从贪婪的无监督预训练初始条件下的更快收敛等。同时,我们发现在权重的某些特殊初始条件下,非监督预训练可以找到这些初始条件,同时表现出深度独立的学习时间,而随机高斯初始化则做不到。
Dec, 2013
本研究通过分析深度神经网络的梯度下降技术实现,提出了控制网络复杂度的隐含规范化方法,并将其归纳为梯度下降算法的内在偏差,说明这种方法可以解决深度学习中过拟合的问题。
Mar, 2019
本文通过随机矩阵理论和线性模型中的准确解,研究了使用梯度下降训练的大型神经网络的泛化动态,发现梯度下降学习的动态自然地保护了大型网络免受过度训练和过拟合的影响,当自由参数的有效数量等于样本数量时,网络过度训练最严重,大小的适当调整可以减少网络过度训练,另外,高维域下,低泛化误差需要从小的初始权重开始。此外,本文还发现了两个新的现象:在梯度下降过程中存在一个冻结的权重子空间,而高维状态的统计特性可保护免受过度训练的影响。
Oct, 2017
本文介绍了一种超越当前流行的最坏情况的理论控制框架,重新审视神经网络的统计力学的古老理论,并使用一个名为 VSDL 的模型来描述当算法过早停止或输入加噪声时会增加的温度和减少的数据量对深度神经网络的控制效果,进而提供了关于其过度拟合训练数据、学习算法波动和转变的一种新的定性描述。
Oct, 2017
这篇文章介绍了关于神经网络的统计理论,从三个角度进行了综述:非参数回归或分类中关于神经网络过度风险的结果,神经网络的训练动力学以及生成模型中的最新理论进展。
Jan, 2024
本文通过分析神经核算法的光谱,提供了对于训练和推广条件的表征,特别地,在讨论极深和宽的神经网络时,发现神经核数仅仅维持有限的数据相关性,并考虑各种网络模型在很大的超参数空间区域内训练集过度拟合而且通常无法推广;同时,与深度神经网络及其卷积形式的全局平均池化相关的理论和实验结果得到了分析。
Dec, 2019
本文提出了一种新颖的基于测度论的机器学习理论,不需要统计假设。基于该理论,提出了一种新的深度学习正则化方法,并表明其在 CIFAR-10、CIFAR-100 和 SVHN 中优于之前的方法。此外,该提出的理论为深度学习中的一族实际成功的正则化方法提供了理论基础。与统计学习理论不同,该提出的学习理论通过测度论分析每个问题实例,而不是通过统计分析一组问题实例,因此提供了不同类型的结果和见解。我们还讨论了该结果对一次性学习、表示学习、深度学习和课程学习的几种后果。
Feb, 2018
该研究通过系统实验和理论构建发现,传统方法很难解释为什么大型神经网络的泛化性能良好,即使加入正则化仍然不会改变随机标记训练数据的状态,因为只要参数数量超过数据点数量,简单的两层神经网络就能实现完美的有限样本表达能力。
Nov, 2016