少量干净实例帮助去噪远程监督

COLINGSep, 2022

Few Clean Instances Help Denoising Distant Supervision

Yufang Liu, Ziyin Huang, Yijun Wang, Changzhi Sun, Man Lan...

TL;DR本文研究远程监督关系提取器的质量问题，旨在通过清洗少量数据以提高模型预测效果，并引入影响函数及师生机制来筛选优质实例和控制中间结果的纯度，取得了良好的去噪效果。

Abstract

Existing distantly supervised relation extractors usually rely on noisy data for both model training and evaluation, which may lead to garbage-in-garbage-out systems. To alleviate the problem, we study whether a small c

distantly supervised relation extractors clean dataset denoising models influence functions teacher-student mechanism

发现论文，激发创造

通过实例级对抗训练对关系抽取的远程监督进行去噪

本研究提出了一种新型的对抗训练机制用于关系提取，以减轻噪音问题，并在大规模基准数据集上进行了实验，表明我们的去噪方法可以有效过滤出嘈杂的实例，并与现有模型相比实现了显著的改进。

May, 2018

用少量干净实例改进在嘈杂数据上训练的命名实体识别器

为了实现最先进的性能，我们提出了使用少量干净实例的指导来去噪 NER 数据的方法，通过训练鉴别模型并使用其输出来重新校准样本权重，能够改善性能并在众包和远程监督数据集上保持一致的结果。

Oct, 2023

一种基于数据驱动的方法用于远程监督下的生物医学关系抽取中的噪声削减

使用多实例学习和 BERT 模型，我们提出了一个简单的数据编码方案，以降低噪音并获得了远程监控生物医学关系提取的最新性能，同时进一步编码关于关系三元组方向的知识，从而减少噪音并减轻了与知识图完成的联合学习的需要。

May, 2020

学习去噪远程标记数据，用于实体类型划分

这项研究提出了一种使用两阶段过程来处理有噪音的远程标记数据的方法，包括滤波和修复嘈杂标签的模型，可以用于超细实体类型任务，具有比原始的远程数据或启发式去噪远程数据表现更好的性能。

May, 2019

用于 SGD 训练模型的数据清理

本文提出了一种算法来检测影响机器学习模型的重要实例，而无需领域知识，该方法利用了随机梯度下降法，并在 MNIST 和 CIFAR10 数据集上进行了实验验证。

Jun, 2019

让每个样本都有价值：自我影响在学习嘈杂自然语言处理数据中的稳定性与效用

本文研究使用任务不可知的自我影响分数对训练数据进行清洗的有效性，通过分析其在捕捉自然异常值方面的功效来调查自我影响数据清洗对机器翻译、问答和文本分类等任务的改进程度，利用自我影响计算的最新方法和自动课程学习作为基础。

Feb, 2023

利用远程监督进行神经关系分类的元学习

该论文提出了一种基于元学习的方法来重新加权具有噪声标签的训练数据，以选择更可靠的训练实例，并利用动态提取的可靠精英实例扩充手工标注的参考数据，从而在关系分类方面取得了领先的性能。

Oct, 2020

中心性和一致性：基于两阶段的实例相关噪声标签学习的干净样本识别

本文提出了一种两阶段的清洗样本识别方法来解决深度模型在无噪声标签时的过拟合问题，其中包括类别不平衡和实例依赖的噪声模式等挑战。该方法既能够在预测中利用类别信息识别近类预测中的干净样本，又能够通过两个分类器头的一致性来识别接近真实类别边界处的干净样本。实验结果表明，该方法在各种基准测试上优于现有的 state-of-the-art 方法。

Jul, 2022

基于事件引导的去噪多语种关系学习

该论文提出了一种新的方法，利用大规模无标签文本中可预测的分布式数据结构从而构建了一个去噪的语料库，该方法通过远成本的监督技术以少量的样本数训练出了类似于 Soares 等人的零样本和少样本结果，该技术通过小型的多语言编码器在英语和西班牙语的一些标准关系评估中实现了与当前领先技术相当的结果。

Dec, 2020

嘈杂的句子是否对远程监督关系抽取毫无用处？

本文提出了一种利用无监督深度聚类技术解决噪声标注问题的远程监督关系抽取模型，包括句子编码器、噪声检测器和标签生成器，实验证明该模型在常用基准数据集上优于现有的同类模型，并能够应对噪声标注问题。

Nov, 2019