无需验证集的早停算法

Mar, 2017

Early Stopping without a Validation Set

Maren Mahsereci, Lukas Balles, Christoph Lassner, Philipp Hennig

TL;DR本文提出了一种新的基于局部统计梯度的早期停止准则，该准则完全消除了验证集的需要，并在最小二乘法、逻辑回归和神经网络的情况下被证明是一种可行的方法。

Abstract

early stopping is a widely used technique to prevent poor generalization performance when training an over-expressive model by means of gradient-based optimization. To find a good point to halt the optimizer, a common practice is to split the dataset into a training and a smaller valid

early stopping gradient-based optimization generalization performance local statistics neural networks

发现论文，激发创造

不要浪费时间：早停止交叉验证

使用早停法进行交叉验证的模型选择，可以更高效地收敛，涵盖更多搜索空间，并实现更好的性能。

May, 2024

核提升算法的早停策略：带局部复杂度的普适分析

本文针对一类损失函数和梯度提升算法，展示了停止迭代估计器的性能与相关函数类的本地高斯复杂度之间的直接联系，并证明了高斯或 Rademacher 复杂性的本地不动点分析可以用于推导最佳停止规则，为各种核类别推导了这种停止规则，并说明了我们理论和实践的对应关系。

Jul, 2017

早停法是非参数变分推断

本研究使用非参数变分近似后验分布的样本抽取来解释随机梯度下降，为基于最小下限的对数边际似然的超参数优化提供一种输出，包括神经网络等领域。

Apr, 2015

早停和非参数回归：一种最优的数据依赖性停止规则

本文针对非参数回归问题中的一种梯度下降算法，提出了一种基于数据的提前停止策略，不需要保留数据或交叉验证，同时证明了该策略有较好的性能表现，可应用于 Sobolev 平滑性类等多种核函数类中。此外，本文还展现了该策略与核岭回归估计器的解路径之间的紧密联系。

Jun, 2013

早停法如何帮助应对标签噪声的泛化问题？

该论文提出了一种叫做 Prestopping 的新的两个阶段的训练方法，它能够在任何类型的噪声标签下实现无噪声训练，并且通过对四个图像基准数据集的广泛实验证明，在真实世界噪声的存在下，我们的方法的测试效果比四种最先进的方法提高了 0.4-8.2 个百分点。

Nov, 2019

提前停止的神经网络具有一致性

研究使用逻辑损失的梯度下降训练 ReLU 网络在二元分类数据上的行为，证明通过提前停止的梯度下降可以在总体风险上接近最优，并获得概率校准。

Jun, 2021

通过神经网络在线指标相关联的早停止

为了减小神经网络的泛化误差，引入了一种新的技术来识别学习者训练时的过拟合现象。该技术利用一系列在线指标的时间相关性，通过建立从 canary 判断构建的一系列独立停止条件的特征函数来评估过拟合的存在，从而提供了决策制定的形式基础，用于中断学习过程。

Feb, 2024

关于最小二乘回归的早停规则

线性回归问题中，我们分析了离散全批量梯度下降的参数轨迹和期望过度风险，证明了使用学习率调度和有限时间内的早停解与广义岭正则化问题的最小范数解等价，并表明早停对于具有任意频谱和多种学习率调度的一般数据都是有益的。我们给出了最佳停止时间的估计并通过实验证明了估计的准确性。

Jun, 2024

早期停止的 Boosting 方法：收敛性和一致性

本文研究了基于一组基函数的线性空间的 boosting 算法的数值收敛性、一致性和统计收敛速率及早停止的策略，展示了理论结果对于提供实际 boosting 应用见解的重要性。

Aug, 2005

迟滞：避免从标错样本中自信学习

提出了一种新的框架 — 后期停止法，通过延长训练过程来利用 DNNs 的内在鲁棒学习能力，逐渐缩小嘈杂数据集并去除高概率错误标记的样本，由此保留了训练集中大部分的清洁困难样本，得到了在标准模拟和真实世界嘈杂数据集上优于现有方法的实验结果。

Aug, 2023