生成真实标签:用于标签噪声研究的合成数据
本研究分析了不同类型的标签噪声对深度学习的影响,提出了一种基于特征相关性的标签噪声生成方法,并提供了常用基准数据集的标签噪声以便其他研究人员测试其算法。
Mar, 2020
通过使用混合模型从局部损失分布学习样本权重,我们提出了一种利用合成样本训练模型的框架来减轻噪音标签影响,并通过逐渐修正噪音标签估计软目标,得到了更为准确的近似真实标签和更加独立和清晰界定的聚类,实验证明我们的方法在两个基准数据集 (CIFAR-10 和 CIFAR-100) 及两个大规模真实世界数据集 (Clothing1M 和 Webvision) 上优于现有技术方法且具备可靠的学习表达能力。
Jun, 2024
提出了一种标签噪声鲁棒的学习算法,该算法使用具有元目标的软标签来训练基础分类器,软标签由数据实例的提取特征生成,并使用单层感知器网络进行学习,算法使用少量的无噪声数据作为元数据,实验结果表明,该算法优于现有基线。
Mar, 2021
本文通过建立了第一个来自网络的真实标签噪声控制基准,解决了以往研究只着眼于控制合成标签噪声的缺点,并通过简单而有效的方法克服了合成和真实噪声标签,对不同噪声水平、噪声类型、网络结构和训练设置等方面进行了迄今为止最大的研究,以深入了解深度神经网络在噪声标签训练中的表现。
Nov, 2019
本研究构建了最大的 NLP 基准 NoisywikiHow,用于学习真实世界中存在噪声标签的情况。该基准数据集通过模拟人类误差构建多个标签噪声来源,并提供多种噪声水平,以支持对含噪数据进行控制实验,并为对学习噪声标签方法(LNL)进行全面系统地评估提供了可能。
May, 2023
本文提出一种噪声容忍的训练算法,其中在传统梯度更新之前进行元学习更新来模拟实际训练。通过生成合成噪声标签进行训练,该元学习方法训练模型,以便在使用每个设置的合成噪声标签进行一次梯度更新后,模型不会过度拟合特定的噪声,从而提高深度神经网络的性能。
Dec, 2018
本文通过研究嘈杂标注的误差建模,提出了一种理论上的噪声模型误差估计方法,并提供了用于评估不同噪声级别的 NoisyNER 数据集,这一研究旨在探索影响噪声模型估计的因素,包括噪声分布和抽样技术。
Jan, 2021
本论文介绍了两个基准数据集 CIFAR-10N 和 CIFAR-100N,使用这些数据集可以更好地理解真实世界嘈杂标签和合理地处理它们,量化和定性显示真实世界嘈杂标签表现出依赖于实例模式,与传统的基于类假设和合成标签的模式不同。并且,还通过与人工噪声和类依赖的合成噪声的对比研究,研究了记忆正确和错误预测的情况,从而表明真实世界的噪声模式比合成噪声模式更具挑战性,需要重新考虑带噪标签的学习问题。
Oct, 2021
对于计算机视觉任务尤其是图像分类任务,本综述全面回顾了应对噪声标签的不同深度学习方法的演变,研究了不同的噪声模式,并提出了一种由现实世界数据引导的算法来生成合成标签噪声模式,以形成一个新的以真实世界数据为指导的合成基准,并在该基准上评估了一些典型的噪声鲁棒方法。
Apr, 2024
本文研究了标签噪声对 BERT 在监督分类任务中的影响,发现现实标签噪声可以严重降低 BERT 的分类性能,探讨了如何使用集成方法和噪声清洗方法来提高模型的稳健性。
May, 2023