DaN+:丹麦嵌套命名实体和词汇规范化
该研究评估了跨语言转移模型在丹麦语命名实体识别中的表现,并研究了在极少量标注数据情况下的补充效果,以及阐述了丹麦语 NER 的性能。
Mar, 2020
本篇论文介绍了一个提供高精度标记和跨多领域模型评估的丹麦命名实体识别数据集 DANSK,以及具备细粒度注释的 DaCy 2.6.0 模型,通过对现有和新模型的评估揭示了跨领域的性能差异,并讨论了数据集的注释质量缺陷及其对模型训练和评估的影响, despite these limitations,该论文主张在丹麦命名实体识别领域同时使用这个新数据集 DANSK 并进行进一步的领域通用性研究。
Feb, 2024
为了解决交叉域命名实体识别 (NER) 任务中样本少的问题,作者提出了一个跨领域 NER 数据集 CrossNER, 进行了一系列实验来探索利用不同级别的领域语料库和预训练策略进行域自适应预训练的有效性,研究表明利用包含领域特定实体的分数语料库并采用更具挑战性的预训练策略对于 NER 的域自适应有益,提出的方法在跨领域 NER 基线上效果更好。
Dec, 2020
本文描述了微软在交叉语种命名实体识别中的新实践方法,使用源语种的标注数据和目标语种的无标注数据,采用半监督学习和强化学习的方法来提取弱监督信号并实现了新的最先进性能优于现有的模型。
Jun, 2021
通过构建一个通用的、包含 400 多种实体类型的数据集 B2NERD,并使用减少冗余的数据修剪策略,在开放领域命名实体识别方面,提高了大型语言模型的泛化性能,优于 GPT-4 和以往的方法。
Jun, 2024
本研究展示如何使用维基百科和 Freebase 自动构建 40 种主要语言的多语言命名实体识别注释器,不需要任何人工标注数据集或语言特定的资源,通过生成分布式词表示,达到竞争性的表现,并提出了一种新的远程评估方法。
Oct, 2014
本文研究了一种基于多语言 BERT 的单一命名实体识别模型,使用多任务学习和分块更新规则等正则化策略优化模型,并证明在多种语言数据集上表现优于专注于单一语言模型,并能够进行零样本预测。
Nov, 2019
本文提出了使用分布式词表示有效地将一个领域中学习的模型适应到其他领域的方法,并分析了不同领域之间的语言变异以识别可以提高性能的语言见解,提出了捕捉词汇用法的领域特定语义的方法,并演示了如何有效地使用此类领域特定知识来学习在领域适应设置中优于以前基准的 NER 模型。
Dec, 2016
本文提出了一种名为 DualNER 的简单有效方法,通过联合序列标注和跨度预测两种方法的多任务框架,使用注解的源语言语料库和无标签的目标语言文本进行跨语言命名实体识别,并引入实体感知的正则化来增强不同语言中相同实体之间的内在跨语言对齐。实验和分析证明了 DualNER 的有效性。
Nov, 2022
本文提出一种基于文本生成模型的协作域前缀调整方法,用于跨领域命名实体识别任务,实现知识在不同领域之间的迁移,提高模型对多源领域的处理能力。实验结果表明,该方法灵活、可靠,优于当前主流的同类方法。
Jan, 2023