在标记分类数据中检测标签错误
该研究表明,大型预训练语言模型本质上具有高度识别自然语言数据集中标签错误的能力:仅通过按微调任务损失的降序检查样本数据点,可显著优于先前工作中提出的更复杂的错误检测机制。此外,研究对引入 SNLI 和 TweetNLP 等现有众包数据集中真实的、人工标记噪声提出了一种新方法,证明该噪声具有类似于真实手动验标错误的属性,并且比现有的合成噪声更难以检测,因此将人工起源噪声作为评估标准更好。最后,使用众包验证评估在 IMDB、Amazon 评论和 Recon 中实际错误的检测,并确认预训练模型的绝对精度召回曲线下面积比现有模型高 9-36%。
May, 2022
本文重新实现并评估了 18 种检测可能存在的注释错误的方法,并在 9 个英文数据集上进行了评估,同时提供了评估协议和实现的开源软件包,以促进未来的研究和再现性。
Jun, 2022
利用自信学习算法和众包验证方法发现了 10 个常用计算机视觉、自然语言和音频数据集的测试集中的标签错误问题,并探讨了这些标签错误对基准结果的影响以及建议应该使用经过正确标注的测试集来评估模型的有效性,对于高比例的标记错误的现实世界数据集,低容量的模型可能比高容量的模型更实用。
Mar, 2021
本文提出了一种非参数化端到端的流程,用于发现在数字、图像和自然语言数据集中的错误标签实例。作者评估了其系统在添加少量标签噪音的情况下的性能,并显示了系统的 top 1%推荐的平均精度超过 0.84。作者最终将其方法的代码和可实现的实现发布出来。
Dec, 2019
本研究提出了一个预测性错误模型,用于检测三个规模广泛的机器学习应用(音乐流媒体、视频流媒体和移动应用)的搜索相关性标注任务中的潜在错误,并评估其提高数据标注过程的质量和效率的潜力。研究结果表明,自动错误检测模型可以在数据注释过程的效率和质量方面带来显着改善,并为人机协同机器学习领域提供重要见解。
Oct, 2023
研究了用于自动检测语义分割数据集中标注错误的算法,其中应用了 7 种不同的质量评分方法,最有效的方法是使用准确率和召回率的模型预测概率的软最小值来识别标注错误的图像。
Jul, 2023
提出了一种改进的朴素贝叶斯文本分类方法,通过使用 EM 算法迭代优化对应的对数似然函数并明确不正确标签的生成机制,大大提高了带有错误标签数据的朴素贝叶斯方法的性能表现。
Apr, 2023
本研究提出了使用 Transformer 模型检测大规模会话助手中的领域分类错误,采用 RoBERTa 模型的话语编码结合生产系统生成的 N 个最佳假设。在使用少量人工标注的语音的多任务设置下,我们的方法检测一个占大型会话 AI 系统流量的 < 0.5% 的域的误分类,达到了 30% 的 F1 分数,表现优于基线的双向长短时记忆模型 16.9% 以及独立 RoBERTa 模型 4.8%,并通过合并多个模型进一步提高了 2.2% 至 32.2%。
Sep, 2021
人类标签变异与注释错误是 NLP 基准测试中普遍存在的问题,现有研究通常将其孤立研究。本论文提出了一种系统的方法和一个新的数据集 VariErr,着重研究英语 NLI 任务中的错误与变异。通过评估各种自动错误检测方法和 GPT 模型在发现错误和人类标签变异方面的效果,我们发现目前的自动错误检测方法明显不如 GPT 模型和人类。虽然 GPT-4 是最好的系统,但仍然没有达到人类的表现水平。我们的方法不仅适用于 NLI,也为将来研究错误与合理变异提供了丰富的研究基础,从而可以获得更好、更可靠的 NLP 系统。
Mar, 2024
我们提出了一种方法,通过发现那些区分正确和错误预测的标记模式来获得全局且可解释的描述,从而改善 NLP 分类器的性能。通过一系列实验证明,我们的方法在实践中表现良好,能够在大词汇量的不平衡数据上恢复出真实情况,并对 NLP 分类器的系统错误提供明确可行的见解。
Nov, 2023