无标记数据下的命名实体识别：一种弱监督方法

ACLApr, 2020

无标记数据下的命名实体识别：一种弱监督方法

Named Entity Recognition without Labelled Data: A Weak Supervision Approach

Pierre Lison, Aliaksandr Hubin, Jeremy Barnes, Samia Touileb

TL;DR文章提出了一种简单但有效的方法，通过弱监督机制在没有标注数据的情况下学习 NER 模型，该方法使用广泛的标注功能对目标域中的文本进行自动注释，然后通过隐马尔可夫模型将这些注释合并在一起，从而最终基于这个统一的注释训练一个序列标注模型。通过在两个英文数据集上的评估（CoNLL 2003 和来自路透社和彭博社的新闻文章），相比于域外神经 NER 模型，在实体级别的 F1 得分上取得了约 7 个百分点的提升。

Abstract

named entity recognition (NER) performance often degrades rapidly when applied to target domains that differ from the texts observed during training. When in-domain labelled data is available, transfer learning t

named entity recognition transfer learning weak supervision labelling functions sequence labelling model

发现论文，激发创造

通过有效的注释和表示投影进行弱监督的跨语言命名实体识别

本文提出两种弱监督的跨语言实体标识方法，分别基于注释投影和词嵌入，无需使用目标语言的人工注释数据。同时，我们设计了两种协同解码方案，将两个基于投影的方法的输出相结合，评估表明这种组合性的方法优于其他三种弱监督方法。

Jul, 2017

使用领域专用字典学习命名实体标注器

本文研究使用深度神经模型实现对命名实体的识别，提出了两种神经模型，分别是模糊 CRF 层和 AutoNER 模型，并探讨了如何优化糟糕的监督数据来源以提高 NER 的准确率。实验结果表明，仅使用词典而无需人工操作的 AutoNER 表现最佳，并与最先进的监督基准具有竞争力。

Sep, 2018

使用部分标注的训练数据进行命名实体识别

研究了使用部分标记数据进行命名实体识别的问题，用迭代算法通过识别假负标签减小其权值，训练带有偏重的 NER 模型，取得 8 种语言的实验结果，并在孟加拉语 NER 语料库中比现有最优算法提高 5 个百分点的 F1 分数。

Sep, 2019

跨语言命名实体识别的增强迭代知识蒸馏

本文描述了微软在交叉语种命名实体识别中的新实践方法，使用源语种的标注数据和目标语种的无标注数据，采用半监督学习和强化学习的方法来提取弱监督信号并实现了新的最先进性能优于现有的模型。

Jun, 2021

小规模强标注数据和大规模弱标注数据的命名实体识别

本文提出了一种多阶段计算框架，名为 NEEDLE，通过采用弱标签完成、噪声感知丢失函数和有强力标签的最终微调等三种关键要素，有效抑制了弱标签的噪音，提高了 Biomedical NER 的性能。

Jun, 2021

具有噪声鲁棒性和语言模型增强的远程监督命名实体识别

本文研究如何通过使用自动化匹配原始文本中实体提及与知识库中实体类型来获得的远距离标注数据来训练命名实体识别（NER）模型，提出了一种噪声鲁棒的学习方案和自训练方法，通过预训练语言模型创建的上下文增量来改善 NER 模型的泛化能力，在三个基准数据集上，我们的方法均获得了优越的性能，显著优于现有的远程监督 NER 模型。

Sep, 2021

少样本命名实体识别：综合研究

本文提出了一种有效地建立识别命名实体（NER）系统的方法，基于最近的基于转换器的自我监督预训练语言模型（PLMs），并探讨了三种正交的方案来改进针对少样例情况的模型泛化能力，通过大量实验结果表明，我们的方法在少数样例学习环境中显著改善或优于基于域标记微调的 PLM 线性分类器等基线方法，同时在无训练和少样例学习环境下建立了最新的业界记录。

Dec, 2020

基于示例的命名实体识别

我们提出了一种新的名词实体识别方法，称为基于示例的实体识别，在缺乏数据的情况下通过受到问答启发，使用少量支持示例来识别新领域中的实体范围，与当前最先进的方法相比，该方法表现出更好的性能，特别是在使用少量支持示例时。

Aug, 2020

零资源跨语言命名实体识别

本文提出一种基于词级对抗训练、参数共享和特征增强的无监督跨语言命名实体识别模型，可在不依靠双语词典或平行数据的情况下，将命名实体知识从一种语言转移到另一种语言。通过对五种不同语言的实验表明，该模型的有效性优于现有模型，并为每个语言对设置了新的 SOTA。

Nov, 2019

零资源跨领域命名实体识别

本文提出了一种跨领域命名实体识别模型，使用多任务学习和实体专家混合方法，实现了零资源领域自适应，性能优于其他无监督跨域序列标注模型。

Feb, 2020