测试集中普遍出现标签错误，破坏机器学习基准

Mar, 2021

测试集中普遍出现标签错误，破坏机器学习基准

Pervasive Label Errors in Test Sets Destabilize Machine Learning Benchmarks

Curtis G. Northcutt, Anish Athalye, Jonas Mueller

TL;DR利用自信学习算法和众包验证方法发现了 10 个常用计算机视觉、自然语言和音频数据集的测试集中的标签错误问题，并探讨了这些标签错误对基准结果的影响以及建议应该使用经过正确标注的测试集来评估模型的有效性，对于高比例的标记错误的现实世界数据集，低容量的模型可能比高容量的模型更实用。

Abstract

We identify label errors in the test sets of 10 of the most commonly-used computer vision, natural language, and audio datasets, and subse

label errors test sets computer vision machine learning real-world datasets

发现论文，激发创造

ImageNet 模型错误的自动分类

自动化错误分类框架的综合评估表明，尽管 top-1 准确率未能完全衡量模型的真实性能，但仍然是一个有价值的性能指标，对错误类型的占比具有强大的预测能力。

Nov, 2023

利用预训练语言模型检测标签错误

该研究表明，大型预训练语言模型本质上具有高度识别自然语言数据集中标签错误的能力：仅通过按微调任务损失的降序检查样本数据点，可显著优于先前工作中提出的更复杂的错误检测机制。此外，研究对引入 SNLI 和 TweetNLP 等现有众包数据集中真实的、人工标记噪声提出了一种新方法，证明该噪声具有类似于真实手动验标错误的属性，并且比现有的合成噪声更难以检测，因此将人工起源噪声作为评估标准更好。最后，使用众包验证评估在 IMDB、Amazon 评论和 Recon 中实际错误的检测，并确认预训练模型的绝对精度召回曲线下面积比现有模型高 9-36%。

May, 2022

深度学习对大规模标签噪声具有强韧性

本研究证明，基于深度神经网络的图像分类模型可以从含有数量远多于准确标签的训练数据中进行有效学习，表现出良好的测试性能提升，这种学习需要增加数据集大小作为代价。

May, 2017

量化和减少标签错误对模型差异度量的影响

标签错误对模型的不平衡指标产生显著影响，尤其是对少数群体，本文通过实证研究了训练时间和测试时间的标签错误如何影响模型的不平衡指标，并提出了一种估算训练输入标签对模型群体差异指标影响的方法，实证评估结果显示该方法能够显著改善模型的不平衡指标，并结合自动重新标记和微调策略，可以产生具有明显改善群体校准误差的更新模型。

Oct, 2023

人类标注误差对卫星图像场景分类 ConvNets 的影响

该研究通过探究人员标注错误对卷积神经网络在高分辨率卫星图像场景分类上的影响，证明人员标注错误主要来自于类别依赖性错误，而非实例依赖性错误，这种影响类似于几种模拟标注噪音之一，即类别相关性噪音，而非像独立标注错误一样的统一噪音。

May, 2023

现实世界视觉数据集中自动误标签检测的实证研究

计算机视觉中使用标记数据集是主要的进展，近期的研究工作提出了用于自动识别错误标记图像的方法，但在实际数据集中有效实施这些方法的策略仍未充分探索。本研究在多个数据集上对最近发展的自动化错误标记检测方法进行了详细评估，结果表明该方法在清理真实世界视觉数据集中性能相似甚至优于先前方法。通过精心设计方法，将该方法应用于真实世界计算机视觉数据集后，在较小的数据情况下使每个分类器的性能提高了 8%。

Dec, 2023

AQuA: 标签质量评估的基准测试工具

该论文提出了一个用于评估机器学习中标签错误的基准环境 AQuA，引入了标签错误检测模型的具体设计选择的设计空间，并希望借助该基准实现客观而严格的机器学习工具评估。

Jun, 2023

使用自训练集成方法检测未标记数据上的错误并估计准确性

本文提出了一个结合了模型集成学习和自训练的框架，用于解决深度学习模型在实际部署中遭遇训练数据分布不同的测试数据导致性能下降的问题，同时解决无监督准确度估计和错误检测两个挑战性任务，并在 59 项任务中取得了最优结果。

Jun, 2021

人类不确定性使分类更加健壮

本文通过训练具有反映人类知觉不确定性的完整标签分布来解决深度神经网络在泛化和鲁棒性方面存在的问题，并呈现了一个新的基准数据集 CIFAR10H。实验结果表明，基于该数据集的显式训练可以实现深度学习分类器具有人类的不确定性，并提高模型泛化性和抵御对抗攻击能力。

Aug, 2019

看见不可见之物：视觉数据集中的错误和偏差

机器视觉算法对图像的处理和决策至关重要，但是数据集中的错误可能会导致认为黑人是大猩猩或搜索结果中误代表某些族裔，本文追踪数据集中的错误及其影响，揭示了一个缺陷的数据集可能是类别有限、数据来源不全和分类不当的结果。

Nov, 2022