人工标注不确定性的影响
本文通过训练具有反映人类知觉不确定性的完整标签分布来解决深度神经网络在泛化和鲁棒性方面存在的问题,并呈现了一个新的基准数据集CIFAR10H。实验结果表明,基于该数据集的显式训练可以实现深度学习分类器具有人类的不确定性,并提高模型泛化性和抵御对抗攻击能力。
Aug, 2019
本研究提出了一种基于标签质量而非模型预测的学习方法——Confident Learning(CL),通过对数据进行剪枝、使用概率阈值计数来估算噪声,并对样本进行排序,以提高其置信度。我们基于假设类条件噪声过程直接估算了噪声标签和无污染标签之间的联合分布,提出了一种广义CL,它是可证明一致和实验表现优异的。我们在不同类型数据上运用CL,包括MNIST数据集、Amazon评论库、以及ImageNet数据集的一些子集,结果表明CL可以清除不同类型数据中的噪声,提高模型准确性。
Oct, 2019
本论文介绍了两个基准数据集CIFAR-10N和CIFAR-100N,使用这些数据集可以更好地理解真实世界嘈杂标签和合理地处理它们,量化和定性显示真实世界嘈杂标签表现出依赖于实例模式,与传统的基于类假设和合成标签的模式不同。并且,还通过与人工噪声和类依赖的合成噪声的对比研究,研究了记忆正确和错误预测的情况,从而表明真实世界的噪声模式比合成噪声模式更具挑战性,需要重新考虑带噪标签的学习问题。
Oct, 2021
人工标注的视觉数据集中不可避免地包含一部分人为错误标签样本。我们的研究表明,人工标注错误不仅与合成标签错误有明显不同,而且对于监督对比学习(SCL)而言也具有独特的挑战。为了应对这个问题,我们引入了一种对人工标注错误具有鲁棒性的新型SCL目标函数,SCL-RHE。通过提供对人工标注错误的改进稳健性,我们证明SCL-RHE在各种视觉基准测试中始终优于最先进的表示学习和噪声缓解方法。
Mar, 2024
本文研究了数据标注中的注释者标签不确定性对模型的泛化能力和预测不确定性的影响,并提出了一种基于感知质量的模型训练框架,通过生成多个标签来增强模型的可靠性。实验证明,使用该框架进行训练可以减轻注释者标签不确定性对模型泛化能力和预测不确定性的降低。
Mar, 2024
本研究针对训练数据质量对人体姿态估计(HPE)模型性能的影响进行了实证分析,揭示了广泛使用的数据集中存在的标签不准确问题。通过深入分析,发现纠正错误标签能够显著提升HPE模型的准确性,从而推动其在实际应用中的发展。
Sep, 2024
本研究探讨了训练数据质量对人类姿态估计模型性能的影响,特别是错误标签如何对学习和性能指标产生负面影响。通过对流行数据集进行深入分析,揭示了标签不准确的程度和性质,从而提出考虑错误标签影响的方法,以促进更鲁棒和准确的人类姿态估计模型的发展。
Sep, 2024