- 关于最小二乘回归的早停规则
线性回归问题中,我们分析了离散全批量梯度下降的参数轨迹和期望过度风险,证明了使用学习率调度和有限时间内的早停解与广义岭正则化问题的最小范数解等价,并表明早停对于具有任意频谱和多种学习率调度的一般数据都是有益的。我们给出了最佳停止时间的估计并 - 不要浪费时间:早停止交叉验证
使用早停法进行交叉验证的模型选择,可以更高效地收敛,涵盖更多搜索空间,并实现更好的性能。
- 利用网络参数叠加分解解决噪声标签问题
通过参数的加性分解和早停策略,本研究在深度网络中利用记忆效应来对抗有噪声的标签数据,并成功地区分了对干净数据和错标数据的记忆,从而减少错标数据的干扰并提高了推广性能。
- FlexHB: 一个更高效和灵活的超参数优化框架
通过将 Bayesian Optimization 与 FlexHB 相结合,并重新设计 Successive Halving 的 early stopping 框架,提高了多信度 BO 搜索最优配置的效率,获得了超过其他方法的速度提升。
- MLCommons 云层蒙版基准测试与提前停止
MLCommons 科学工作组提交了关于云掩膜基准测试的研究报告,其中包括对基准试验进行了早停机制的改进,并在 NYU HPC 上获得了最高的准确度和平均训练与推断时间。
- 众志成城:使用集成模型的逐轮一致性来抵御过拟合
通过理论分析和经验验证,在深度神经网络中,过拟合发生时,分类器之间的差异性增加。受此结果的指导,我们提出了一种新的基于集成的预测方法,以对抗过拟合。该方法通过选择训练过程中最一致的预测结果来确定最终预测,有效消除了过拟合对模型泛化性能的不利 - 基于 JPEG 信息规范化的深度图像先验去噪
图像去噪是计算机视觉领域中代表性的图像恢复任务。最近关于只使用噪声图像进行图像去噪的研究引起了广泛关注。深度图像先验 (DIP) 通过卷积神经网络结构的归纳偏置实现了成功的只使用噪声图像进行图像去噪,而无需任何预训练。DIP 图像去噪的主要 - ApproBiVT: 使用近似的偏差 - 方差折衷指导早停和检查点平均的先导 ASR 模型更好地泛化
在这篇论文中,我们从偏差和方差的权衡角度重新考虑并更新了早停和检查点平均值的方法,使用训练损失和验证损失作为偏差和方差的近似代理,并在高级 ASR 模型上验证时,我们的方法在 AISHELL-1 和 AISHELL-2 上分别降低了 2.5 - 异质人群下的早停法
本文研究了如何通过因果机器学习方法,为具有异质种人群的实验寻求提前停止,提出了一种广泛适用的停止实验的方法 CLASH,并证明其在模拟和真实数据上都具有有效的性能。
- Bayesian 优化中相关背景变量的成本感知学习
本文介绍了一个基于敏感性分析的模型选择上下文优化算法(Sensitivity-Analysis-Driven Contextual BO),该算法可以在考虑环境上下文信息的同时最小化最优化成本,并在多个综合研究中表现出明显的改进。
- 深入研究:利用平坦性提前停止对抗样本的可转移性
该论文研究了对抗样本在不同模型间的可转移性问题,并发现早期停止训练可以提高可转移性,并提出了一种新方法 RFN,通过最小化损失的尖锐度来最大化可转移性。
- ICLR动态更新到数据比率:最小化世界模型过度拟合
在强化学习等连续数据环境中,通过在未使用的一小部分数据上检测欠拟合和过拟合从而动态调整数据更新比率的新方法,比默认设置比更好的平衡欠拟合和过度估计,消除了手动设置超参数的需要,并使模型具有更高的健壮性,同时减少了必要的调试量。
- 混合样本对特征学习的益处
本文研究数据增强方法 Mixup 的原理,从特征学习的角度解释了 Mixup 方法的优越性,并提出在早期训练阶段应用早停止技术以提高训练效果。
- PADDLES: 基于相位 - 振幅谱解耦的噪声标签学习早停止方法
本研究提出了一种称为 PADDLES 的方法,通过使用离散傅里叶变换(DFT)将某些层的特征分解为振幅谱(AS)和相位谱(PS),在训练期间分别在不同的时间点停止 AS 和 PS 的训练,以提高 CNNs 对标签噪声的鲁棒性。在合成和现实标 - ECCV半泄露:针对半监督学习的成员推断攻击
提出了基于数据增强的 SSL 模型成员推断攻击,并证明 SSL 训练中的成员泄漏与过拟合不同,通过早停止可以缓解攻击,但会降低模型效用。
- 基于 Transformer 的语言模型的自适应微调用于命名实体识别
本次研究提出了自适应微调的替代方案,使用早期停止和自定义学习速率表来动态调整训练轮数,特别针对小型数据集,我们在命名实体识别的示例用例中表现出比现有的微调算法更好的性能、稳定性和效率。
- epochwise 双重下降发生的时间和方式
本文研究表明,随着参数数量的增加,深度神经网络会呈现出 “双下降” 的特性,同时,随着训练时间的增长,也存在着 “按时间下降的双重下降” 效应,这在实践中导致训练时间过长,基于验证表现的早停可能导致非最优泛化。作者提出了一种可以从理论上解释 - 隐式稀疏正则化:深度和提前停止的影响
本文研究了梯度下降的隐式偏差对于稀疏回归的影响,并将关于二次参数化的回归结果扩展到更一般的深度为 N 的网络,结果表明通过提前停止来实现隐式稀疏规则化至关重要,并且对于一般深度参数 N,足够小的初始化和步长可以实现最小化最优的稀疏恢复。
- 理解和改善针对带噪标签学习的早停策略
本论文提出一种分步训练深度神经网络的方法,称为渐进式提前停止(Progressive Early Stopping, PES),以对抗训练过程中的标签噪声。该方法可以显著提高图像分类质量,并结合现有标签噪声训练方法,达到了最新成果。
- 提前停止的神经网络具有一致性
研究使用逻辑损失的梯度下降训练 ReLU 网络在二元分类数据上的行为,证明通过提前停止的梯度下降可以在总体风险上接近最优,并获得概率校准。