本研究提出了一种新型的对抗训练机制用于关系提取,以减轻噪音问题,并在大规模基准数据集上进行了实验,表明我们的去噪方法可以有效过滤出嘈杂的实例,并与现有模型相比实现了显著的改进。
May, 2018
为了实现最先进的性能,我们提出了使用少量干净实例的指导来去噪 NER 数据的方法,通过训练鉴别模型并使用其输出来重新校准样本权重,能够改善性能并在众包和远程监督数据集上保持一致的结果。
Oct, 2023
使用多实例学习和 BERT 模型,我们提出了一个简单的数据编码方案,以降低噪音并获得了远程监控生物医学关系提取的最新性能,同时进一步编码关于关系三元组方向的知识,从而减少噪音并减轻了与知识图完成的联合学习的需要。
May, 2020
这项研究提出了一种使用两阶段过程来处理有噪音的远程标记数据的方法,包括滤波和修复嘈杂标签的模型,可以用于超细实体类型任务,具有比原始的远程数据或启发式去噪远程数据表现更好的性能。
May, 2019
本文提出了一种算法来检测影响机器学习模型的重要实例,而无需领域知识,该方法利用了随机梯度下降法,并在 MNIST 和 CIFAR10 数据集上进行了实验验证。
Jun, 2019
本文研究使用任务不可知的自我影响分数对训练数据进行清洗的有效性,通过分析其在捕捉自然异常值方面的功效来调查自我影响数据清洗对机器翻译、问答和文本分类等任务的改进程度,利用自我影响计算的最新方法和自动课程学习作为基础。
Feb, 2023
该论文提出了一种基于元学习的方法来重新加权具有噪声标签的训练数据,以选择更可靠的训练实例,并利用动态提取的可靠精英实例扩充手工标注的参考数据,从而在关系分类方面取得了领先的性能。
Oct, 2020
本文提出了一种两阶段的清洗样本识别方法来解决深度模型在无噪声标签时的过拟合问题,其中包括类别不平衡和实例依赖的噪声模式等挑战。该方法既能够在预测中利用类别信息识别近类预测中的干净样本,又能够通过两个分类器头的一致性来识别接近真实类别边界处的干净样本。实验结果表明,该方法在各种基准测试上优于现有的 state-of-the-art 方法。
Jul, 2022
该论文提出了一种新的方法,利用大规模无标签文本中可预测的分布式数据结构从而构建了一个去噪的语料库,该方法通过远成本的监督技术以少量的样本数训练出了类似于 Soares 等人的零样本和少样本结果,该技术通过小型的多语言编码器在英语和西班牙语的一些标准关系评估中实现了与当前领先技术相当的结果。
Dec, 2020
本文提出了一种利用无监督深度聚类技术解决噪声标注问题的远程监督关系抽取模型,包括句子编码器、噪声检测器和标签生成器,实验证明该模型在常用基准数据集上优于现有的同类模型,并能够应对噪声标注问题。
Nov, 2019