深度前馈神经网络癌转移预测模型过拟合的实证研究
在深度神经网络中,我们引入一种新的评分方法来衡量过拟合,该方法通过监测验证数据上的模型遗忘率,从而揭示了即使总体上泛化能力得到改善,仍存在数据空间中某些区域泛化能力退化的情况。基于这些观察,我们构建了一种新的集成方法,该方法仅基于单个网络的训练历史,在不增加额外训练时间的情况下显著提高了性能。在现代深度模型上进行的广泛实证评估显示了该方法在多个数据集、神经网络架构和训练方案中的实用性,无论是从头开始训练还是在迁移学习中使用预训练网络。值得注意的是,我们的方法在实现和使用上更加简单,并在 Imagenet 上改进了具有竞争力的网络 1% 的性能。
Oct, 2023
本研究探讨了现代机器学习模型中广泛存在的过度拟合现象及理论预测,表明超学习风险会在满足一定条件的情况下逐渐减小,并且在两层神经网络中使用 ReLU 激活函数的情况下具有近最小化学习率的能力。同时,还发现当网络参数数量超过 O (n^2) 时,超学习风险开始增加,这与最近的实证结果相符。
Jun, 2021
研究表明温和过拟合现象对过度参数深度学习模型的成功提供了深刻见解。本文探讨了现实世界中的温和过拟合现象,并发现对于在 ImageNet 数据集上训练 ResNet 模型等任务,模型不会温和拟合。在这个较轻的过参数化设置下,我们的分析确定了一种新现象:在标签噪声存在的情况下,温和过拟合可能会失败。此外,我们的工作强调了理解欠拟合环境中的隐式偏差作为未来方向的重要性。
Jun, 2022
本研究表明,深度学习在工业推荐系统中得到了广泛的应用,但其模型在推荐系统中的过拟合问题受到的关注较少,而在点击率(CTR)预测中,出现了一个有趣的一次过拟合问题:模型性能在第二次迭代的开始时急剧下降,因此,通常使用仅一次迭代训练时性能最佳。本研究在阿里巴巴的广告系统数据集上进行了广泛的实验,结果表明,模型结构,具有快速收敛率的优化算法以及特征的稀疏性与一次过度拟合的现象密切相关,并提供了一个可能的假设来解释这种现象,并进行了一系列的概念证明实验,希望这项工作能为未来研究提供启示,训练更多迭代以获得更好的性能。
Sep, 2022
研究了两层神经网络中过参数化对学生 - 教师框架的影响,发现只有当学生的隐藏层数量指数级大于输入维度时,才能达到完美的泛化。同时计算了其渐进的泛化误差。
Mar, 2023
研究深度学习领域中常用的过参数化网络和尽可能训练的现象,发现对于对抗训练的深度网络来说过拟合确实会对其稳健性产生很大的负面影响,因此建议使用提前停止等方法来取得相似的性能提升。
Feb, 2020