HAMNER: 头词放大多跨度远程监督方法用于特定领域命名实体识别
本文研究使用深度神经模型实现对命名实体的识别,提出了两种神经模型,分别是模糊 CRF 层和 AutoNER 模型,并探讨了如何优化糟糕的监督数据来源以提高 NER 的准确率。实验结果表明,仅使用词典而无需人工操作的 AutoNER 表现最佳,并与最先进的监督基准具有竞争力。
Sep, 2018
本文提出了一种新的命名实体识别(NER)技术,专门针对开源软件系统。我们的方法通过使用全面的两步远程监督注释过程来解决注释软件数据的稀缺性问题。该方法战略性地利用语言启发式方法、唯一的查找表、外部知识源和主动学习方法。通过利用这些强大的技术,我们不仅提高了模型的性能,还有效地克服了成本和专家注释者的稀缺性方面的局限性。值得注意的是,我们的框架在很大程度上超越了现有技术的领先水平。我们还展示了 NER 在下游关系抽取任务中的有效性。
Feb, 2024
本文研究如何通过使用自动化匹配原始文本中实体提及与知识库中实体类型来获得的远距离标注数据来训练命名实体识别(NER)模型,提出了一种噪声鲁棒的学习方案和自训练方法,通过预训练语言模型创建的上下文增量来改善 NER 模型的泛化能力,在三个基准数据集上,我们的方法均获得了优越的性能,显著优于现有的远程监督 NER 模型。
Sep, 2021
本文提出两种弱监督的跨语言实体标识方法,分别基于注释投影和词嵌入,无需使用目标语言的人工注释数据。同时,我们设计了两种协同解码方案,将两个基于投影的方法的输出相结合,评估表明这种组合性的方法优于其他三种弱监督方法。
Jul, 2017
文章提出了一种简单但有效的方法,通过弱监督机制在没有标注数据的情况下学习 NER 模型,该方法使用广泛的标注功能对目标域中的文本进行自动注释,然后通过隐马尔可夫模型将这些注释合并在一起,从而最终基于这个统一的注释训练一个序列标注模型。通过在两个英文数据集上的评估(CoNLL 2003 和来自路透社和彭博社的新闻文章),相比于域外神经 NER 模型,在实体级别的 F1 得分上取得了约 7 个百分点的提升。
Apr, 2020
该研究论文探讨了在遥感监督(DS-NER)框架下的命名实体识别(NER),其中主要挑战在于由于伪阳性、伪阴性和正类型错误等固有错误导致标签质量受损。我们批判性评估了当前 DS-NER 方法的效力,使用了一个名为 QTL 的真实基准数据集,揭示其性能常常达不到预期。为了解决标签噪声的普遍问题,我们引入了一种简单而有效的方法,基于课程的正负无标记学习(CuPUL),该方法在训练过程中通过从 “简单” 且更干净的样本开始,增强模型对噪声样本的鲁棒性。我们的实证结果突出了 CuPUL 减少噪声标签影响、超越现有方法的能力。
Feb, 2024
本文描述了微软在交叉语种命名实体识别中的新实践方法,使用源语种的标注数据和目标语种的无标注数据,采用半监督学习和强化学习的方法来提取弱监督信号并实现了新的最先进性能优于现有的模型。
Jun, 2021
本文提出了一种基于预训练语言模型的计算框架 BOND,其对开放域命名实体识别(NER)问题进行了研究,通过远程监督解决了高噪声和不完整标签的问题,并使用两阶段训练算法和自训练方法进一步提高了模型性能,该方法在五个基准数据集上优于现有的远程监督 NER 方法。
Jun, 2020
本文介绍了一个名为 ANEA 的工具,它基于实体列表自动注释文本中的命名实体,并通过调整提高自动注释的质量,进而实现对于少量手工标注数据的低资源场景下的弱监督学习,实验结果表明使用 ANEA 获得的弱监督数据可以在 6 个低资源场景中平均提高 18 点 F1 分数。
Feb, 2021
我们研究了在极弱监督条件下的命名实体识别(NER)问题,提出了一种名为 X-NER 的新方法,可以胜过现有的一次性 NER 方法,具有跨语言能力。
Nov, 2023