生成真实标签:用于标签噪声研究的合成数据
本研究提出了一种基于标签质量而非模型预测的学习方法——Confident Learning(CL),通过对数据进行剪枝、使用概率阈值计数来估算噪声,并对样本进行排序,以提高其置信度。我们基于假设类条件噪声过程直接估算了噪声标签和无污染标签之间的联合分布,提出了一种广义CL,它是可证明一致和实验表现优异的。我们在不同类型数据上运用CL,包括MNIST数据集、Amazon评论库、以及ImageNet数据集的一些子集,结果表明CL可以清除不同类型数据中的噪声,提高模型准确性。
Oct, 2019
本研究分析了不同类型的标签噪声对深度学习的影响,提出了一种基于特征相关性的标签噪声生成方法,并提供了常用基准数据集的标签噪声以便其他研究人员测试其算法。
Mar, 2020
本文通过研究嘈杂标注的误差建模,提出了一种理论上的噪声模型误差估计方法,并提供了用于评估不同噪声级别的NoisyNER数据集,这一研究旨在探索影响噪声模型估计的因素,包括噪声分布和抽样技术。
Jan, 2021
本文提出了一个基于特征依赖的标签噪声处理算法,该算法采用渐进式标签校正策略,通过理论证明其可以适应广泛的噪声模式并收敛于贝叶斯分类器,实验证明其优于SOTA基线算法且对各种噪声类型和程度具有鲁棒性。
Mar, 2021
本论文介绍了两个基准数据集CIFAR-10N和CIFAR-100N,使用这些数据集可以更好地理解真实世界嘈杂标签和合理地处理它们,量化和定性显示真实世界嘈杂标签表现出依赖于实例模式,与传统的基于类假设和合成标签的模式不同。并且,还通过与人工噪声和类依赖的合成噪声的对比研究,研究了记忆正确和错误预测的情况,从而表明真实世界的噪声模式比合成噪声模式更具挑战性,需要重新考虑带噪标签的学习问题。
Oct, 2021
提出一种能够有效提高 SOTA noisy-label learning 方法性能的新噪声标签学习图模型,该模型能够准确估计噪声率并用于训练过程的样本选择阶段。
May, 2023
通过设计合成数据集和系统实证研究,本文提出了一个简单而有效的度量指标,用于过滤出有噪声的标签样本,同时保留难学习的样本。研究发现,在半监督学习框架下,我们提出的数据划分方法明显优于其他方法。
Jul, 2023
通过样本选择,基于Proto-semi的噪声标签学习方法在真实世界的注释情景中分别处理了事实噪声和歧义噪声,并利用了原型向量和半监督学习方法来增强训练,实验证明其在处理噪声标签学习问题上的健壮性。
Jul, 2023
噪声标签学习的研究中,噪声建模和噪声检测是两种常见方法,但这两种方法通常独立研究,缺乏对它们的协作研究。本文探讨了这两种方法的整合,提出了一个互联结构,包括噪声建模、源知识识别和使用噪声源知识整合方法的增强噪声检测的关键模块。在包括三种类型的噪声和各个模块的不同组合的四个数据集上的实验证明了这些模块的协作有效性。我们的协作结构方法在合成噪声数据集中提高了高达10%的top-1分类准确率,在真实世界的噪声数据集中提高了3-5%的准确率。结果还表明,这些模块在不同噪声场景中对整体性能有不同的贡献。这些发现为将来设计针对特定噪声场景定制的噪声标签学习方法提供了有价值的见解。我们的代码对公众开放可访问。
Nov, 2023
使用易样本辅助选择难样本进行标签纠正从而实现去噪标签学习,并且在Instance-Dependent噪声数据集上展示出比其他最先进方法更出色的性能。
Jul, 2024