早停梯度下降在过度参数化的神经网络上被证明对标签噪声具有鲁棒性
该论文提出了一种叫做 Prestopping 的新的两个阶段的训练方法,它能够在任何类型的噪声标签下实现无噪声训练,并且通过对四个图像基准数据集的广泛实验证明,在真实世界噪声的存在下,我们的方法的测试效果比四种最先进的方法提高了 0.4-8.2 个百分点。
Nov, 2019
探讨在有噪声标签的情况下,过度参数化的深度神经网络的正则化方法,其中比较有效的包括参数与初始化之间的距离和为每个训练示例添加一个可训练的辅助变量,实验结果表明这些方法能够有效提高模型的泛化性,并且泛化误差的上界独立于网络的大小,可达到无噪声标签情况下的水平。
May, 2019
本文研究表明,在神经网络中使用 ReLU 激活函数和随机初始化梯度下降法可以以全局线性收敛率收敛于全局最优解,其分析依赖于神经网络的超参数和随机初始化方式,这些经验也可能有助于分析深度网络等其他一阶方法。
Oct, 2018
重启训练在含有噪声标签的深度神经网络中显著提高泛化性能,通过近似随机梯度下降动力学为朗之万动力学,我们理论上证明了重启可以在批量大小和损坏数据比例增加时提供巨大改进。同时,我们实验证实了我们的理论,证明了通过重启可以显著改善性能,并且我们的方法容易实施且与其他方法兼容,是处理噪声标签的有价值工具。
Jun, 2024
本论文提出一种分步训练深度神经网络的方法,称为渐进式提前停止(Progressive Early Stopping, PES),以对抗训练过程中的标签噪声。该方法可以显著提高图像分类质量,并结合现有标签噪声训练方法,达到了最新成果。
Jun, 2021
本文探讨了神经网络的过度参数化现象对于梯度下降收敛至全域最优解所需的程度及类型,并结合实验结果以浅层神经网络和平滑激活函数为例,证明了只需参数数量高于数据集大小的平方根时,梯度下降随机初始化即可收敛至全域最优解。
Feb, 2019
本文探讨了过度参数化模型,特别是深度神经网络,在训练期间错误率的演化现象,其原因是来自于不同部分在不同时期学习带来的偏差 - 方差权衡嵌套问题。通过合理调整步长,可以显著提高早停指标。
Jul, 2020
在超参数化的情况下研究了一类噪声梯度下降系统的极限动力学。研究发现,噪声的结构不仅影响极限过程的形式,还影响演化的时间尺度。应用该理论比较了 Dropout、标签噪声和经典 SGD(小批量)噪声的演化过程,发现它们在不同的两个时间尺度上演化。这些研究结果受到神经网络训练的启发,但定理适用于任何具有非平凡零损失集的噪声梯度下降。
Apr, 2024