分类数据集中的错误标记实例识别

Dec, 2019

分类数据集中的错误标记实例识别

Identifying Mislabeled Instances in Classification Datasets

Nicolas Michael Müller, Karla Markert

TL;DR本文提出了一种非参数化端到端的流程，用于发现在数字、图像和自然语言数据集中的错误标签实例。作者评估了其系统在添加少量标签噪音的情况下的性能，并显示了系统的 top 1％推荐的平均精度超过 0.84。作者最终将其方法的代码和可实现的实现发布出来。

Abstract

A key requirement for supervised machine learning is labeled training data, which is created by annotating unlabeled data with the appropriate class. Because this process can in many cases not be done by machines

supervised machine learning labeled training data class annotation mislabeled instances non-parametric end-to-end pipeline

发现论文，激发创造

现实世界视觉数据集中自动误标签检测的实证研究

计算机视觉中使用标记数据集是主要的进展，近期的研究工作提出了用于自动识别错误标记图像的方法，但在实际数据集中有效实施这些方法的策略仍未充分探索。本研究在多个数据集上对最近发展的自动化错误标记检测方法进行了详细评估，结果表明该方法在清理真实世界视觉数据集中性能相似甚至优于先前方法。通过精心设计方法，将该方法应用于真实世界计算机视觉数据集后，在较小的数据情况下使每个分类器的性能提高了 8%。

Dec, 2023

识别误标记的训练数据

论文提出了一种新方法，通过使用一组学习算法进行分类器噪声过滤来改善训练数据的质量，从而提高监督学习算法产生的分类准确性。实验结果表明，通过使用多数投票或一致性过滤器可以显著提高分类准确性，而后者更适用于数据匮乏的情况，前者更适用于数据丰富的情况。

Jun, 2011

从培训动态中学习：识别手动设计特征之外的错误标记数据

本研究提出了一种使用噪音检测器（由 LSTM 网络实现）基于原始训练动态来判断样本是否存在错误标签，并通过标注纠错提高深度模型的性能的新型学习解决方案，实验证明此方法在各种数据集上均能精确检测出错标样本，优于现有的技术。

Dec, 2022

数据中心机器学习的重新标记方法

本文介绍了一种简单的方法，通过使用模型的预测结果，找到并重新标记噪声数据，以解决部分手动标记数据质量不高的问题，并在多项深度学习任务中取得 90 分以上的成绩。实验结果和人类评价结果验证了该方法的有效性。

Feb, 2023

大规模图像分类数据集高效标注的良好实践

本文研究了一种高效的策略收集多类别图像集的分类标签，使用自监督学习技术并将标注问题视为半监督学习问题，并提出了有效的标注指南，用此方案对 ImageNet100 图像集进行模拟实验，结果表明每张图像平均仅需 0.35 个标注，即可标注到 80% 的 top-1 准确率，相比之前的工作和手动注释，分别提高了 2.7 倍和 6.7 倍。

Apr, 2021

从含有噪声标签的数据中学习如何学习

本文提出一种噪声容忍的训练算法，其中在传统梯度更新之前进行元学习更新来模拟实际训练。通过生成合成噪声标签进行训练，该元学习方法训练模型，以便在使用每个设置的合成噪声标签进行一次梯度更新后，模型不会过度拟合特定的噪声，从而提高深度神经网络的性能。

Dec, 2018

测试集中普遍出现标签错误，破坏机器学习基准

利用自信学习算法和众包验证方法发现了 10 个常用计算机视觉、自然语言和音频数据集的测试集中的标签错误问题，并探讨了这些标签错误对基准结果的影响以及建议应该使用经过正确标注的测试集来评估模型的有效性，对于高比例的标记错误的现实世界数据集，低容量的模型可能比高容量的模型更实用。

Mar, 2021

用于检测顺序现实数据集中异常的多实例学习

本文研究了如何通过多实例学习 (MIL) 方法在不完全了解异常标签的情况下，检测来自不同物理过程及不同模式的实际数据集中的异常，经过实验评估，该方法在挑战性数据集上的表现优于单实例学习，并具有一定的扩展性。

Oct, 2022

半监督学习未标记数据集污染

本研究探讨半监督机器学习模型中一类新型的漏洞 —— 污染攻击，并提出两种方法来防止这种攻击。

May, 2021

利用错标数据改进朴素贝叶斯

提出了一种改进的朴素贝叶斯文本分类方法，通过使用 EM 算法迭代优化对应的对数似然函数并明确不正确标签的生成机制，大大提高了带有错误标签数据的朴素贝叶斯方法的性能表现。

Apr, 2023