预训练语言模型作为重新注释工具

May, 2022

预训练语言模型作为重新注释工具

Pre-trained Language Models as Re-Annotators

Chang Shu

TL;DR本文讲述了如何利用预训练语言模型降噪数据集，提出了两种任务：注释不一致检测和注释错误更正。作者使用新的可信度分数来检测不一致性，并用两种方法来更正注释。此外，通过重新注释创建了一个新数据集 Re-DocRED，自动降噪训练集将对关系抽取模型产生多达 3.6％的性能提高。

Abstract

annotation noise is widespread in datasets, but manually revising a flawed corpus is time-consuming and error-prone. Hence, given the prior knowledge in pre-trained language models and the expected uniformity acr

annotation noise pre-trained language models annotation inconsistency detection annotation error correction relation extraction

发现论文，激发创造

利用预训练语言模型检测标签错误

该研究表明，大型预训练语言模型本质上具有高度识别自然语言数据集中标签错误的能力：仅通过按微调任务损失的降序检查样本数据点，可显著优于先前工作中提出的更复杂的错误检测机制。此外，研究对引入 SNLI 和 TweetNLP 等现有众包数据集中真实的、人工标记噪声提出了一种新方法，证明该噪声具有类似于真实手动验标错误的属性，并且比现有的合成噪声更难以检测，因此将人工起源噪声作为评估标准更好。最后，使用众包验证评估在 IMDB、Amazon 评论和 Recon 中实际错误的检测，并确认预训练模型的绝对精度召回曲线下面积比现有模型高 9-36%。

May, 2022

具有噪声鲁棒性和语言模型增强的远程监督命名实体识别

本文研究如何通过使用自动化匹配原始文本中实体提及与知识库中实体类型来获得的远距离标注数据来训练命名实体识别（NER）模型，提出了一种噪声鲁棒的学习方案和自训练方法，通过预训练语言模型创建的上下文增量来改善 NER 模型的泛化能力，在三个基准数据集上，我们的方法均获得了优越的性能，显著优于现有的远程监督 NER 模型。

Sep, 2021

搜索相关性数据标注任务的通用化错误建模

本研究提出了一个预测性错误模型，用于检测三个规模广泛的机器学习应用（音乐流媒体、视频流媒体和移动应用）的搜索相关性标注任务中的潜在错误，并评估其提高数据标注过程的质量和效率的潜力。研究结果表明，自动错误检测模型可以在数据注释过程的效率和质量方面带来显着改善，并为人机协同机器学习领域提供重要见解。

Oct, 2023

注释错误检测：分析过去和现在，创造更连贯的未来

本文重新实现并评估了 18 种检测可能存在的注释错误的方法，并在 9 个英文数据集上进行了评估，同时提供了评估协议和实现的开源软件包，以促进未来的研究和再现性。

Jun, 2022

用少量干净实例改进在嘈杂数据上训练的命名实体识别器

为了实现最先进的性能，我们提出了使用少量干净实例的指导来去噪 NER 数据的方法，通过训练鉴别模型并使用其输出来重新校准样本权重，能够改善性能并在众包和远程监督数据集上保持一致的结果。

Oct, 2023

追求基础事实：在注释器噪声存在的情况下学习自信模型并估计不确定性

本文提出了一种与多个标注者的混淆有关的置信模型学习方法，通过对分类器网络添加熵或基于信息的正则化器来鲁棒地估计给定仅含有噪声标签的预测，并在 MNIST、CIFAR-10 和 FMNIST 等数据集上进行了实验，实验结果表明该方法在各项指标上均优于或与其他现有方法表现相当。

Jan, 2023

基于自动噪声检测的实体链接远程学习

本文介绍了一种在没有标记数据的情况下，通过多实例学习和噪声检测的方法，学习从知识库中链接提及的实体，特别是对于科学领域等标记信息有限的领域。

May, 2019

带有置信度估计的有噪标注命名实体识别

该研究采用校准置信度估计的方式来研究深度学习在实际场景下的命名实体识别问题，提出了一种基于本地和全局独立性假设的置信得分估计策略，并结合 CRF 模型来隔离低置信度标签，同时提出了一种基于实体标签结构的置信度校准方法，最后将其集成到自我训练框架中进行性能提升，在四种语言和遥远标注场景下的实验证明了该方法的有效性。

Apr, 2021

提高模型健壮性的自然语言纠错的澄清

通过 Clarify，用户仅需提供短文本描述来描述模型的连续失败模式，然后我们完全自动化地使用这些描述来改善训练过程，以重新加权训练数据或收集额外的有针对性的数据，并通过用户研究表明，非专业用户可以成功地通过 Clarify 描述模型的误解，从而在两个数据集中将最差组精确度平均提高 17.1％，此外，我们使用 Clarify 在 ImageNet 数据集中找到并纠正了 31 个新的困难子群体，将少数群体的精确度从 21.1％提高到 28.7％。

Feb, 2024

TACRED 关系分类数据集中的噪声：特征化与减少

本文旨在探索基于模型的方法来表征 RE 数据集 TACRED 中噪声的主要原因，并识别潜在的噪声实例。通过分析预测结果和 SOTA 模型的性能，我们发现 TACRED 数据集中的噪声主要来自被标记为无关系的实例。针对第二个目标，我们探索了两种基于最近邻的策略来自动识别可能存在噪声的实例，进行剔除和重新注释。实验证据显示，基于这些策略进行的模型再训练可以显著提升性能。

Nov, 2023