基于自动噪声检测的实体链接远程学习
本文研究如何通过使用自动化匹配原始文本中实体提及与知识库中实体类型来获得的远距离标注数据来训练命名实体识别(NER)模型,提出了一种噪声鲁棒的学习方案和自训练方法,通过预训练语言模型创建的上下文增量来改善 NER 模型的泛化能力,在三个基准数据集上,我们的方法均获得了优越的性能,显著优于现有的远程监督 NER 模型。
Sep, 2021
使用多实例学习和 BERT 模型,我们提出了一个简单的数据编码方案,以降低噪音并获得了远程监控生物医学关系提取的最新性能,同时进一步编码关于关系三元组方向的知识,从而减少噪音并减轻了与知识图完成的联合学习的需要。
May, 2020
本研究提出了零样本实体链接任务,通过大规模无标记数据预训练的强阅读理解模型与适应性预训练策略,成功实现了无先验标注数据的实体链接,并在新数据集上获得了比 BERT 等强预训练模型更好的表现。
Jun, 2019
文章提出了一种简单但有效的方法,通过弱监督机制在没有标注数据的情况下学习 NER 模型,该方法使用广泛的标注功能对目标域中的文本进行自动注释,然后通过隐马尔可夫模型将这些注释合并在一起,从而最终基于这个统一的注释训练一个序列标注模型。通过在两个英文数据集上的评估(CoNLL 2003 和来自路透社和彭博社的新闻文章),相比于域外神经 NER 模型,在实体级别的 F1 得分上取得了约 7 个百分点的提升。
Apr, 2020
为了实现最先进的性能,我们提出了使用少量干净实例的指导来去噪 NER 数据的方法,通过训练鉴别模型并使用其输出来重新校准样本权重,能够改善性能并在众包和远程监督数据集上保持一致的结果。
Oct, 2023
本文研究使用深度神经模型实现对命名实体的识别,提出了两种神经模型,分别是模糊 CRF 层和 AutoNER 模型,并探讨了如何优化糟糕的监督数据来源以提高 NER 的准确率。实验结果表明,仅使用词典而无需人工操作的 AutoNER 表现最佳,并与最先进的监督基准具有竞争力。
Sep, 2018
本文主要介绍了一种基于神经模型和样本采集技术的 Named Entity Disambiguation 方法,使用 WikilinksNED 数据集进行训练与测试,并且在 embedding 初始化方面做了一些优化,取得显著的性能提升。
Jun, 2017
用一个模型识别实体对及其关系的联合实体和关系抽取任务中,存在嘈杂标签的问题。为了填补这个空白,我们引入了一种新的噪音鲁棒方法,可以同时进行实体和关系检测,并使用一个新的损失函数惩罚与显著关系模式和实体关系依赖性不一致的情况,以及一个自适应学习步骤迭代地选择和训练高质量实例。在两个数据集上的实验证明,我们的方法在联合抽取性能和噪音减少效果方面优于现有的最新方法。
Oct, 2023