基于自动噪声检测的实体链接远程学习

ACLMay, 2019

基于自动噪声检测的实体链接远程学习

Distant Learning for Entity Linking with Automatic Noise Detection

Phong Le, Ivan Titov

TL;DR本文介绍了一种在没有标记数据的情况下，通过多实例学习和噪声检测的方法，学习从知识库中链接提及的实体，特别是对于科学领域等标记信息有限的领域。

Abstract

Accurate entity linkers have been produced for domains and languages where annotated data (i.e., texts linked to a knowledge base) is available. However, little progress has been made for the settings where no or very limited amounts of labeled data are present (e.g., legal or most

entity linker labeled data multi-instance learning noise detection scientific domains

发现论文，激发创造

具有噪声鲁棒性和语言模型增强的远程监督命名实体识别

本文研究如何通过使用自动化匹配原始文本中实体提及与知识库中实体类型来获得的远距离标注数据来训练命名实体识别（NER）模型，提出了一种噪声鲁棒的学习方案和自训练方法，通过预训练语言模型创建的上下文增量来改善 NER 模型的泛化能力，在三个基准数据集上，我们的方法均获得了优越的性能，显著优于现有的远程监督 NER 模型。

Sep, 2021

一种基于数据驱动的方法用于远程监督下的生物医学关系抽取中的噪声削减

使用多实例学习和 BERT 模型，我们提出了一个简单的数据编码方案，以降低噪音并获得了远程监控生物医学关系提取的最新性能，同时进一步编码关于关系三元组方向的知识，从而减少噪音并减轻了与知识图完成的联合学习的需要。

May, 2020

通过阅读实体描述进行零样本实体链接

本研究提出了零样本实体链接任务，通过大规模无标记数据预训练的强阅读理解模型与适应性预训练策略，成功实现了无先验标注数据的实体链接，并在新数据集上获得了比 BERT 等强预训练模型更好的表现。

Jun, 2019

无标记数据下的命名实体识别：一种弱监督方法

文章提出了一种简单但有效的方法，通过弱监督机制在没有标注数据的情况下学习 NER 模型，该方法使用广泛的标注功能对目标域中的文本进行自动注释，然后通过隐马尔可夫模型将这些注释合并在一起，从而最终基于这个统一的注释训练一个序列标注模型。通过在两个英文数据集上的评估（CoNLL 2003 和来自路透社和彭博社的新闻文章），相比于域外神经 NER 模型，在实体级别的 F1 得分上取得了约 7 个百分点的提升。

Apr, 2020

噪音感知训练的布局感知语言模型

使用噪声感知训练 (NAT) 的多个最先进的提取模型来减少企业环境下自定义提取器所需的人工标注样本数量，提高性能，并降低人力成本。

Mar, 2024

用少量干净实例改进在嘈杂数据上训练的命名实体识别器

为了实现最先进的性能，我们提出了使用少量干净实例的指导来去噪 NER 数据的方法，通过训练鉴别模型并使用其输出来重新校准样本权重，能够改善性能并在众包和远程监督数据集上保持一致的结果。

Oct, 2023

使用领域专用字典学习命名实体标注器

本文研究使用深度神经模型实现对命名实体的识别，提出了两种神经模型，分别是模糊 CRF 层和 AutoNER 模型，并探讨了如何优化糟糕的监督数据来源以提高 NER 的准确率。实验结果表明，仅使用词典而无需人工操作的 AutoNER 表现最佳，并与最先进的监督基准具有竞争力。

Sep, 2018

嘈杂文本的命名实体消歧

本文主要介绍了一种基于神经模型和样本采集技术的 Named Entity Disambiguation 方法，使用 WikilinksNED 数据集进行训练与测试，并且在 embedding 初始化方面做了一些优化，取得显著的性能提升。

Jun, 2017

噪声鲁棒学习的远程监督联合实体和关系抽取

用一个模型识别实体对及其关系的联合实体和关系抽取任务中，存在嘈杂标签的问题。为了填补这个空白，我们引入了一种新的噪音鲁棒方法，可以同时进行实体和关系检测，并使用一个新的损失函数惩罚与显著关系模式和实体关系依赖性不一致的情况，以及一个自适应学习步骤迭代地选择和训练高质量实例。在两个数据集上的实验证明，我们的方法在联合抽取性能和噪音减少效果方面优于现有的最新方法。

Oct, 2023

在低资源环境下训练神经网络自动注释的嘈杂数据

通过添加噪声层到神经网络结构中，我们可以处理噪声并联合清洁和嘈杂数据进行训练，从而提高低资源 NER 任务的性能，最多可提高 35%。

Jul, 2018