Oct, 2019

自信学习:估计数据集标签的不确定性

TL;DR本研究提出了一种基于标签质量而非模型预测的学习方法——Confident Learning(CL),通过对数据进行剪枝、使用概率阈值计数来估算噪声,并对样本进行排序,以提高其置信度。我们基于假设类条件噪声过程直接估算了噪声标签和无污染标签之间的联合分布,提出了一种广义CL,它是可证明一致和实验表现优异的。我们在不同类型数据上运用CL,包括MNIST数据集、Amazon评论库、以及ImageNet数据集的一些子集,结果表明CL可以清除不同类型数据中的噪声,提高模型准确性。