在达成零训练误差后，我们是否需要零训练损失？

ICMLFeb, 2020

在达成零训练误差后，我们是否需要零训练损失？

Do We Need Zero Training Loss After Achieving Zero Training Error?

Takashi Ishida, Ikko Yamane, Tomoya Sakai, Gang Niu, Masashi Sugiyama

TL;DR本研究提出了一种称为 flooding 的解决方案，通过限制训练误差在一个合理的小值范围内，以达到更好的泛化效果，并在实验中证明了有效性。

Abstract

overparameterized deep networks have the capacity to memorize training data with zero \emph{training error}. Even after memorization, the \emph{training loss} continues to approach zero, making the model overconf

overparameterized deep networks training error training loss flooding generalization

发现论文，激发创造

AdaFlood：自适应洪水正则化

传统上，神经网络会优化目标函数使得训练损失为零，但最近研究发现设定一个非零训练损失阈值 (即洪水水位) 通常能够实现更好的测试泛化。然而，现有的方法将相同的恒定洪水水位应用于所有训练样本，这在本质上假设所有样本具有相同的难度。本文提出了 AdaFlood，一种新颖的洪水正则化方法，根据样本的难度调整每个训练样本的洪水水位。直观来说，由于训练样本的难度不同，目标训练损失应该与实例有关系。在涵盖文本、图像、异步事件序列和表格等四种不同输入模态的数据集上的实验证明了 AdaFlood 在不同数据领域和噪声水平下的多功能性。

Nov, 2023

泛洪正则化用于稳定训练生成对抗网络

该论文提出了一种针对生成对抗网络（GANs）的训练不稳定问题的解决方法，通过直接对抗损失函数进行正则化，使用洪水法（flooding）抑制判别器的损失过低，实验证明洪水法可以稳定 GANs 的训练，并与其他稳定技术结合使用。

Nov, 2023

深度 ResNet 的过度参数化：零损失和平均场分析

研究无限深度和无限宽度下 Residual 神经网络中梯度下降和凸优化的等效性，得出当神经网络足够大时，ResNet 的训练可以得到几乎没有误差的近似解决方案。

May, 2021

软升软降中的隐式正则化

通过提出一种更加鲁棒的程序 SoftAD，该程序通过减少边界点和限制异常值的影响，保留升降效果，实现与 SAM 和 Flooding 竞争性分类准确度，同时保持更小的损失泛化差距和模型规范化。

Oct, 2023

深度学习理论 III：解释非过拟合谜题

该研究探讨深度网络中的过拟合问题，发现梯度下降在非线性网络中的优化动力学与线性系统是等价的，同时也推广了梯度下降的两个性质到非线性网络中：隐式正则化以及最小范数解的渐近收敛，通过这些性质，可以提高模型的泛化能力，同时在分类任务中也能得到较好的分类误差。

Dec, 2017

深度网络中的泛化（IIIb 理论）

该论文研究了深度神经网络中过拟合的问题，证明了使用特定的损失函数时神经网络的收敛性及性能，提出了一种实用的判断不同零最小化点泛化性能的方法。

Jun, 2018

随机遗忘对强健泛化的有效性

通过引入一种名为 “忘却以减轻过拟合（FOMO）” 的新型学习范式，交替进行随机遗忘权重子集和重新初始化权重的调节，以及强调学习可泛化特征的学习阶段，FOMO 成功缓解了强健过拟合问题，显著减小了最佳和最后的强健测试准确率之间的差距，并提高了最先进的鲁棒性，在标准准确性和鲁棒准确性之间提供了更好的权衡正。此外，FOMO 对 AutoAttacks 具有鲁棒性，并在许多实际情境中提高了泛化能力。

Feb, 2024

神经机器翻译的连续学习在低遗忘风险区域内进行

本篇论文提出了一种基于局部特征训练的两阶段方法，能够实现大规模预训练神经机器翻译模型的连续学习，以适应新任务，采用这种方法能够在不访问以前的训练数据或引入模型分离的情况下解决之前方法的不足。

Nov, 2022

训练超参数化深度神经网络的改进分析

本文提供了一种改进的分析方法来探究（随机）梯度下降训练深度神经网络的全局收敛，该方法比之前的研究工作以更加温和的过度参数化条件确定了问题相关参数的大小，包括更紧密的梯度下限和更清晰的算法轨迹路径描述。

Jun, 2019

对抗鲁棒深度学习中的过拟合问题

研究深度学习领域中常用的过参数化网络和尽可能训练的现象，发现对于对抗训练的深度网络来说过拟合确实会对其稳健性产生很大的负面影响，因此建议使用提前停止等方法来取得相似的性能提升。

Feb, 2020