May, 2023

失配问题的双重下降:一种与任务、数据和模型无关的现象

TL;DR本文研究了两个具有相同架构、使用相同算法和数据集训练的神经网络,发现在训练数据上,它们的输出差异表现出“双峰现象”。通过广泛实验跨越各种任务、数据集和网络架构,我们证明了这种现象的普遍性。利用这种现象,我们提出了一种新的早期停止准则并开发了一种新的数据质量评估方法。我们的结果表明,基于现象的方法可以在理论理解和实际应用方面有益于深度学习研究。