利用预训练语言模型检测标签错误

EMNLPMay, 2022

利用预训练语言模型检测标签错误

Detecting Label Errors by using Pre-Trained Language Models

Derek Chong, Jenny Hong, Christopher D. Manning

TL;DR该研究表明，大型预训练语言模型本质上具有高度识别自然语言数据集中标签错误的能力：仅通过按微调任务损失的降序检查样本数据点，可显著优于先前工作中提出的更复杂的错误检测机制。此外，研究对引入 SNLI 和 TweetNLP 等现有众包数据集中真实的、人工标记噪声提出了一种新方法，证明该噪声具有类似于真实手动验标错误的属性，并且比现有的合成噪声更难以检测，因此将人工起源噪声作为评估标准更好。最后，使用众包验证评估在 IMDB、Amazon 评论和 Recon 中实际错误的检测，并确认预训练模型的绝对精度召回曲线下面积比现有模型高 9-36%。

Abstract

We show that large pre-trained language models are inherently highly capable of identifying label errors in natural language datasets: simply examining out-of-sample data points in descending order of fine-tuned

pre-trained language models label errors human-originated label noise synthetic noise crowdsourced verification

发现论文，激发创造

预训练语言模型作为重新注释工具

本文讲述了如何利用预训练语言模型降噪数据集，提出了两种任务：注释不一致检测和注释错误更正。作者使用新的可信度分数来检测不一致性，并用两种方法来更正注释。此外，通过重新注释创建了一个新数据集 Re-DocRED，自动降噪训练集将对关系抽取模型产生多达 3.6％的性能提高。

May, 2022

测试集中普遍出现标签错误，破坏机器学习基准

利用自信学习算法和众包验证方法发现了 10 个常用计算机视觉、自然语言和音频数据集的测试集中的标签错误问题，并探讨了这些标签错误对基准结果的影响以及建议应该使用经过正确标注的测试集来评估模型的有效性，对于高比例的标记错误的现实世界数据集，低容量的模型可能比高容量的模型更实用。

Mar, 2021

有噪声标签的学习再探讨：使用真实世界人类注释的研究

本论文介绍了两个基准数据集 CIFAR-10N 和 CIFAR-100N，使用这些数据集可以更好地理解真实世界嘈杂标签和合理地处理它们，量化和定性显示真实世界嘈杂标签表现出依赖于实例模式，与传统的基于类假设和合成标签的模式不同。并且，还通过与人工噪声和类依赖的合成噪声的对比研究，研究了记忆正确和错误预测的情况，从而表明真实世界的噪声模式比合成噪声模式更具挑战性，需要重新考虑带噪标签的学习问题。

Oct, 2021

NoisywikiHow：自然语言处理中用于真实世界噪声标签学习的基准

本研究构建了最大的 NLP 基准 NoisywikiHow，用于学习真实世界中存在噪声标签的情况。该基准数据集通过模拟人类误差构建多个标签噪声来源，并提供多种噪声水平，以支持对含噪数据进行控制实验，并为对学习噪声标签方法（LNL）进行全面系统地评估提供了可能。

May, 2023

学习带有噪音基础模型

该论文通过广泛的实验证明，虽然在预训练中存在一定的噪声可以提高域内性能，但它总是破坏域外性能，然后提出了一种调整方法来减轻噪声的不良影响并提高泛化能力。

Mar, 2024

通过外部引导对预训练语言模型进行噪声抗干扰微调

使用嘈杂标签，通过引导大型语言模型来提高预训练语言模型（PLM）的微调过程，以区分干净样本和嘈杂样本，并提供嘈杂标签之外的辅助信息，从而增强学习过程。

Nov, 2023

理解和降低预训练中的标签噪声对下游任务的影响

通过大规模数据集的预训练和下游任务的微调已经成为深度学习中的标准实践。然而，预训练数据通常包含可能对模型的泛化产生不利影响的标签噪声。本文旨在理解预训练数据中噪声的特性，并减轻其对下游任务的影响。我们通过对合成噪声的 ImageNet-1K 和 YFCC15M 数据集进行有监督预训练模型的大量实验，证明了轻微噪声预训练可以在域内传输性能上有益，但总是会对域外性能造成恶化。我们通过实证验证了噪声对预训练的特征空间造成不同的影响。然后，我们提出了一种轻量级的黑盒调节方法（NMTune），来对齐特征空间，减轻噪声的恶性效应，并改善在域内和域外任务上的泛化能力，考虑到可能无法完全微调甚至访问预训练模型。我们对经过噪声数据预训练的热门视觉和语言模型进行了实证实验以评估我们的方法。我们的分析和结果显示出这个有趣而新颖的研究方向的重要性，我们称之为噪声模型学习。

Sep, 2023

多源噪声模拟与难例挖掘用于文本分类的鲁棒性学习

本研究提出了一种新的训练框架，通过直接模拟自然 OCR 噪声并从大量的模拟样本中迭代挖掘难样本来提高模型性能，实验表明该框架大大提高了预训练模型的鲁棒性，可以在实际场景下极大地促进 NLP 模型的应用。

Jul, 2021

分析逼真嘈杂标签数据的噪声模型误差

本文通过研究嘈杂标注的误差建模，提出了一种理论上的噪声模型误差估计方法，并提供了用于评估不同噪声级别的 NoisyNER 数据集，这一研究旨在探索影响噪声模型估计的因素，包括噪声分布和抽样技术。

Jan, 2021

基于实证误差建模的神经序列标注方法提升噪声下鲁棒性能

本文在处理嘈杂的文本数据或 OCR 输出时，提出了改进的噪声感知训练方法，并通过一种从无误文本翻译为有误文本的序列对序列模型，提出了实证误差生成方法。利用 OCR 引擎生成大型平行文本语料库进行训练，针对错误序列标注数据集提出了多种真实世界的噪声序列标注基准。通过学习基于噪声语言模型的嵌入，可以克服文本输入不完美时数据稀疏性问题。我们的方法在错误的序列标注数据集上优于基线噪声生成和错误修正技术，为未来的鲁棒性研究提供了帮助，我们作为开源项目提供了我们的代码、嵌入和数据转换脚本。

May, 2021