Sep, 2023

理解和降低预训练中的标签噪声对下游任务的影响

TL;DR通过大规模数据集的预训练和下游任务的微调已经成为深度学习中的标准实践。然而,预训练数据通常包含可能对模型的泛化产生不利影响的标签噪声。本文旨在理解预训练数据中噪声的特性,并减轻其对下游任务的影响。我们通过对合成噪声的 ImageNet-1K 和 YFCC15M 数据集进行有监督预训练模型的大量实验,证明了轻微噪声预训练可以在域内传输性能上有益,但总是会对域外性能造成恶化。我们通过实证验证了噪声对预训练的特征空间造成不同的影响。然后,我们提出了一种轻量级的黑盒调节方法(NMTune),来对齐特征空间,减轻噪声的恶性效应,并改善在域内和域外任务上的泛化能力,考虑到可能无法完全微调甚至访问预训练模型。我们对经过噪声数据预训练的热门视觉和语言模型进行了实证实验以评估我们的方法。我们的分析和结果显示出这个有趣而新颖的研究方向的重要性,我们称之为噪声模型学习。