在标记分类数据中检测标签错误

Oct, 2022

Detecting Label Errors in Token Classification Data

Wei-Chen Wang, Jonas Mueller

TL;DR本文研究了在标记分类数据集中寻找包含标签错误的句子的方法，并通过在 CoNLL-2003 的实体识别数据中进行的准召率评估，确立了一种简单有效的方法，能够用于该任务。

Abstract

mislabeled examples are a common issue in real-world data, particularly for tasks like token classification where many labels must be chosen on a fine-grained basis. Here we consider the task of finding sentences

mislabeled examples token classification label errors entity recognition conll-2003

发现论文，激发创造

利用预训练语言模型检测标签错误

该研究表明，大型预训练语言模型本质上具有高度识别自然语言数据集中标签错误的能力：仅通过按微调任务损失的降序检查样本数据点，可显著优于先前工作中提出的更复杂的错误检测机制。此外，研究对引入 SNLI 和 TweetNLP 等现有众包数据集中真实的、人工标记噪声提出了一种新方法，证明该噪声具有类似于真实手动验标错误的属性，并且比现有的合成噪声更难以检测，因此将人工起源噪声作为评估标准更好。最后，使用众包验证评估在 IMDB、Amazon 评论和 Recon 中实际错误的检测，并确认预训练模型的绝对精度召回曲线下面积比现有模型高 9-36%。

May, 2022

注释错误检测：分析过去和现在，创造更连贯的未来

本文重新实现并评估了 18 种检测可能存在的注释错误的方法，并在 9 个英文数据集上进行了评估，同时提供了评估协议和实现的开源软件包，以促进未来的研究和再现性。

Jun, 2022

测试集中普遍出现标签错误，破坏机器学习基准

利用自信学习算法和众包验证方法发现了 10 个常用计算机视觉、自然语言和音频数据集的测试集中的标签错误问题，并探讨了这些标签错误对基准结果的影响以及建议应该使用经过正确标注的测试集来评估模型的有效性，对于高比例的标记错误的现实世界数据集，低容量的模型可能比高容量的模型更实用。

Mar, 2021

分类数据集中的错误标记实例识别

本文提出了一种非参数化端到端的流程，用于发现在数字、图像和自然语言数据集中的错误标签实例。作者评估了其系统在添加少量标签噪音的情况下的性能，并显示了系统的 top 1％推荐的平均精度超过 0.84。作者最终将其方法的代码和可实现的实现发布出来。

Dec, 2019

搜索相关性数据标注任务的通用化错误建模

本研究提出了一个预测性错误模型，用于检测三个规模广泛的机器学习应用（音乐流媒体、视频流媒体和移动应用）的搜索相关性标注任务中的潜在错误，并评估其提高数据标注过程的质量和效率的潜力。研究结果表明，自动错误检测模型可以在数据注释过程的效率和质量方面带来显着改善，并为人机协同机器学习领域提供重要见解。

Oct, 2023

通过任意模型评估语义分割数据的标签质量和误差

研究了用于自动检测语义分割数据集中标注错误的算法，其中应用了 7 种不同的质量评分方法，最有效的方法是使用准确率和召回率的模型预测概率的软最小值来识别标注错误的图像。

Jul, 2023

利用错标数据改进朴素贝叶斯

提出了一种改进的朴素贝叶斯文本分类方法，通过使用 EM 算法迭代优化对应的对数似然函数并明确不正确标签的生成机制，大大提高了带有错误标签数据的朴素贝叶斯方法的性能表现。

Apr, 2023

使用 Transformer 模型进行大规模自然语言理解系统的错误检测

本研究提出了使用 Transformer 模型检测大规模会话助手中的领域分类错误，采用 RoBERTa 模型的话语编码结合生产系统生成的 N 个最佳假设。在使用少量人工标注的语音的多任务设置下，我们的方法检测一个占大型会话 AI 系统流量的 < 0.5% 的域的误分类，达到了 30% 的 F1 分数，表现优于基线的双向长短时记忆模型 16.9% 以及独立 RoBERTa 模型 4.8%，并通过合并多个模型进一步提高了 2.2% 至 32.2%。

Sep, 2021

VariErr NLI：将注释错误与人类标签变异分离

人类标签变异与注释错误是 NLP 基准测试中普遍存在的问题，现有研究通常将其孤立研究。本论文提出了一种系统的方法和一个新的数据集 VariErr，着重研究英语 NLI 任务中的错误与变异。通过评估各种自动错误检测方法和 GPT 模型在发现错误和人类标签变异方面的效果，我们发现目前的自动错误检测方法明显不如 GPT 模型和人类。虽然 GPT-4 是最好的系统，但仍然没有达到人类的表现水平。我们的方法不仅适用于 NLI，也为将来研究错误与合理变异提供了丰富的研究基础，从而可以获得更好、更可靠的 NLP 系统。

Mar, 2024

通过可解释的标记模式理解和减轻分类错误

我们提出了一种方法，通过发现那些区分正确和错误预测的标记模式来获得全局且可解释的描述，从而改善 NLP 分类器的性能。通过一系列实验证明，我们的方法在实践中表现良好，能够在大词汇量的不平衡数据上恢复出真实情况，并对 NLP 分类器的系统错误提供明确可行的见解。

Nov, 2023