学习去噪远程标记数据,用于实体类型划分
本文提出一种新颖的超细实体类型模型,其具有去噪能力,通过建立一个噪声模型对输入的上下文和实体类型标签进行估计,从输入中减去估计噪声以恢复更可靠的标签,并采用双编码器结构训练去噪数据,噪声模型和实体类型模型迭代训练,以提高彼此的性能,在 Ultra-Fine 实体类型数据集以及 OntoNotes 数据集上表现显著优于其他基线方法。
Oct, 2022
本文研究如何通过使用自动化匹配原始文本中实体提及与知识库中实体类型来获得的远距离标注数据来训练命名实体识别(NER)模型,提出了一种噪声鲁棒的学习方案和自训练方法,通过预训练语言模型创建的上下文增量来改善 NER 模型的泛化能力,在三个基准数据集上,我们的方法均获得了优越的性能,显著优于现有的远程监督 NER 模型。
Sep, 2021
使用多实例学习和 BERT 模型,我们提出了一个简单的数据编码方案,以降低噪音并获得了远程监控生物医学关系提取的最新性能,同时进一步编码关于关系三元组方向的知识,从而减少噪音并减轻了与知识图完成的联合学习的需要。
May, 2020
本文探讨了信息抽取模型中两种不同类型的噪声:来自远程监督和来自管道输入特征的噪声,并针对实体类型和关系提取等任务提出了使用神经网络模型的多实例多标签学习算法,以及改进噪声实体类型预测和关系提取间的整合方法,通过实验证明概率预测比离散预测更加鲁棒,并联合训练两个任务的效果最好。
Dec, 2016
为了实现最先进的性能,我们提出了使用少量干净实例的指导来去噪 NER 数据的方法,通过训练鉴别模型并使用其输出来重新校准样本权重,能够改善性能并在众包和远程监督数据集上保持一致的结果。
Oct, 2023
本研究针对远程监督 Fine-grained 实体类型标注(FET)中存在的错误实体类型标签问题,提出了 Compact Latent Space Clustering(CLSC)方法来进行正则化,并借助标签传播推断出嘈杂数据,在嵌入空间中鼓励具有相似语义的实体提供更好的分类性能,且实验证明此方法在标准基准上普遍优于最先进的远程监督实体类型标注系统。
Apr, 2019
本文提出了基于超几何学习的远程监督 NER 去噪算法,该算法考虑了噪声分布和实例级置信度,进行神经网络训练。实验证明,HGL 方法能有效去噪并在训练模型方面取得显著的提升。
Jun, 2021
本研究提出了一种新型的对抗训练机制用于关系提取,以减轻噪音问题,并在大规模基准数据集上进行了实验,表明我们的去噪方法可以有效过滤出嘈杂的实例,并与现有模型相比实现了显著的改进。
May, 2018
本文提出一种名为 “自我协同去噪学习” 的鲁棒学习模式,利用两个教师 - 学生网络相互学习进行标签去噪,以应对远程监督命名实体识别中的标签噪声问题。该方法在五个真实世界数据集上的实验结果表明其优于当前 DS-NER 去噪方法。
Oct, 2021