过拟合检验

May, 2023

Testing for Overfitting

James Schmidt

TL;DR机器学习中的过拟合问题及测试方法的研究。通过假设检验，使用训练数据进行模型评估和过拟合的定量定义和检测，同时注意到分布转移的标记和在缺乏统一 PAC 保证的情况下概括学习的另一种概念。

Abstract

High complexity models are notorious in machine learning for overfitting, a phenomenon in which models well represent data but fail to generalize an underlying data generating process. A typical procedure for cir

overfitting machine learning empirical risk hypothesis test quantitative definition

发现论文，激发创造

通过对抗性样本检测过拟合

该研究提出了一种利用原始测试数据来检测过拟合的新方法，使用对抗性示例和重要性加权的无偏误差估计，尤其适用于多类图像分类模型在 ImageNet 基准测试上的过拟合检测。

Mar, 2019

算法性能无假设测试的限制

对于限定的数据量，我们研究了算法评估与比较的理论极限，发现在黑盒测试下无法客观评价算法性能，除非可用数据点数远大于样本量。在评估特定训练模型性能方面则较为简单，只需要保留一组验证数据即可。同样地，我们探讨了算法稳定性假设是否足以解决问题，结果发现只有在高稳定性范围内，模型才能基本无差别。最后，我们还针对多个算法的比较问题也得出了类似的理论困难。

Feb, 2024

量化过拟合：通过零空间分析评估神经网络性能

研究如何在没有访问训练数据或知道其准确性的情况下，使用测试数据来量化过度拟合的神经网络中的空值，并发现在过度拟合和普遍化不佳的模型中有特定的空间特征，以保证方法的隐私性和普适性。

May, 2023

自适应数据分析与留存重用中的泛化

本文针对过拟合问题，提出了一种适用于自适应数据分析的算法，使用保留集重复验证后得到的假设，避免了过度拟合问题，同时利用描述长度和差分隐私，展示了在适应性场景下保证统计有效性的方法，并通过近似最大信息的方法将这些方法统一起来。

Jun, 2015

重拾被遗忘的知识：关于遗忘、过拟合和无需训练的深度神经网络集成

在深度神经网络中，我们引入一种新的评分方法来衡量过拟合，该方法通过监测验证数据上的模型遗忘率，从而揭示了即使总体上泛化能力得到改善，仍存在数据空间中某些区域泛化能力退化的情况。基于这些观察，我们构建了一种新的集成方法，该方法仅基于单个网络的训练历史，在不增加额外训练时间的情况下显著提高了性能。在现代深度模型上进行的广泛实证评估显示了该方法在多个数据集、神经网络架构和训练方案中的实用性，无论是从头开始训练还是在迁移学习中使用预训练网络。值得注意的是，我们的方法在实现和使用上更加简单，并在 Imagenet 上改进了具有竞争力的网络 1% 的性能。

Oct, 2023

寻求鲁棒的泛化测量方法

本文讨论了深度学习中的一项科学挑战，即解释归纳泛化问题，通过关注经验性评估方法，提出了将泛化度量评估纳入分布强健性框架的看法。

Oct, 2020

从超参数化机器学习理论的角度看偏差 - 方差折中问题的再思考

本文概述了 “过参数化机器学习” 的新理论，通过统计信号处理的角度解释最近研究发现的相应现象和结果，着重强调了这个研究领域的独特性和开放的问题。

Sep, 2021

深度学习模型抑制过拟合的一种基于历史的方法

该研究提出了一种简单但功能强大的方法，通过训练历史（即验证损失）来同时检测和预防深度学习模型的过拟合，实现了优于现有方法的过拟合检测能力和预防效果。

Jan, 2024

稳健验证：即使分布发生偏移，也能自信地做出预测

本文提出了一种建立在鲁棒性预测推断上的不确定性估计模型，使用 conformal inference 方法建立了准确覆盖测试数据分布的预测集，通过估计数据漂移量建立了鲁棒性，并在多个基准数据集上进行了实验证明了该方法的重要性。

Aug, 2020

了解深度学习需要了解核学习

研究表明深度学习和浅层核方法在过拟合问题上表现相似，而不是泛化性能高的唯一因素，因此需要更深入地研究浅层核方法，以更好地理解深度学习。

Feb, 2018