Mar, 2021

测试集中普遍出现标签错误,破坏机器学习基准

TL;DR利用自信学习算法和众包验证方法发现了 10 个常用计算机视觉、自然语言和音频数据集的测试集中的标签错误问题,并探讨了这些标签错误对基准结果的影响以及建议应该使用经过正确标注的测试集来评估模型的有效性,对于高比例的标记错误的现实世界数据集,低容量的模型可能比高容量的模型更实用。