深度学习中的泛化错误
该研究通过系统实验和理论构建发现,传统方法很难解释为什么大型神经网络的泛化性能良好,即使加入正则化仍然不会改变随机标记训练数据的状态,因为只要参数数量超过数据点数量,简单的两层神经网络就能实现完美的有限样本表达能力。
Nov, 2016
比较了传统机器学习模型与深度学习算法在推广能力方面的差异,发现深度学习模型具有在训练数据范围之外进行推广的内在能力,对实际应用中的不完整或超出观测范围的数据具有重要意义。
Mar, 2024
深度学习中的泛化是一个重要的问题,并且通过复杂度衡量的新进展有望更好地理解深度学习的机制,更好地应用于对未知数据的泛化,并提高模型的可靠性和鲁棒性。
Dec, 2020
本文综述了神经网络模型不同抽象级别的概念、建模方法和最近的研究发现,包括网络模型的概括、分布、域、任务、模式和范围的泛化,着重于在各泛化层次上存在的问题,例如过拟合问题和域适应问题。
Sep, 2022
本论文通过应用无序系统的统计物理学技术,对解决使用 softmax 输出和交叉熵损失的分类任务的深度神经网络的推广进行非线性动力学的分析,以理论上支持多任务学习表现由任务的噪声性以及输入特征对其的对齐程度来决定的直觉。
Oct, 2019
本文通过分析神经核算法的光谱,提供了对于训练和推广条件的表征,特别地,在讨论极深和宽的神经网络时,发现神经核数仅仅维持有限的数据相关性,并考虑各种网络模型在很大的超参数空间区域内训练集过度拟合而且通常无法推广;同时,与深度神经网络及其卷积形式的全局平均池化相关的理论和实验结果得到了分析。
Dec, 2019
本文介绍了一种超越当前流行的最坏情况的理论控制框架,重新审视神经网络的统计力学的古老理论,并使用一个名为 VSDL 的模型来描述当算法过早停止或输入加噪声时会增加的温度和减少的数据量对深度神经网络的控制效果,进而提供了关于其过度拟合训练数据、学习算法波动和转变的一种新的定性描述。
Oct, 2017