神经交叉语言转移和有限注释数据应用在丹麦命名实体识别
本文描述了微软在交叉语种命名实体识别中的新实践方法,使用源语种的标注数据和目标语种的无标注数据,采用半监督学习和强化学习的方法来提取弱监督信号并实现了新的最先进性能优于现有的模型。
Jun, 2021
介绍了 DaN+,一个新的、支持跨语种跨领域学习的丹麦嵌套命名实体(NEs)和词汇归一化的多领域语料库和标注指南。评估了三种策略来建模双层命名实体识别任务,证实多任务学习是最坚实的策略,并且在最规范的数据中,使用本语言 BERT 和词汇归一化是最有利的。
May, 2021
本篇论文介绍了一个提供高精度标记和跨多领域模型评估的丹麦命名实体识别数据集 DANSK,以及具备细粒度注释的 DaCy 2.6.0 模型,通过对现有和新模型的评估揭示了跨领域的性能差异,并讨论了数据集的注释质量缺陷及其对模型训练和评估的影响, despite these limitations,该论文主张在丹麦命名实体识别领域同时使用这个新数据集 DANSK 并进行进一步的领域通用性研究。
Feb, 2024
本研究利用荷兰语、英语和德语之间的跨语言转移学习,使用管道和端到端(E2E)方案,利用自定义伪标注数据集的 Wav2Vec2-XLS-R 模型,研究了几种跨语言系统的适应性,结果表明,端到端的口语命名实体识别优于基于管道的替代方案。 转移学习从德语到荷兰语的效果比荷兰语 E2E 系统高 7%,比管道系统高 4%。
Jul, 2023
提出了一种基于双语单词嵌入的翻译方法,以改善跨语言的 named-entity recognition 性能,并使用 self-attention 来提高鲁棒性。在对常见语言的测试中达到了最先进或具有竞争力的 NER 性能。
Aug, 2018
本文提出两种弱监督的跨语言实体标识方法,分别基于注释投影和词嵌入,无需使用目标语言的人工注释数据。同时,我们设计了两种协同解码方案,将两个基于投影的方法的输出相结合,评估表明这种组合性的方法优于其他三种弱监督方法。
Jul, 2017
本文提出一种基于词级对抗训练、参数共享和特征增强的无监督跨语言命名实体识别模型,可在不依靠双语词典或平行数据的情况下,将命名实体知识从一种语言转移到另一种语言。通过对五种不同语言的实验表明,该模型的有效性优于现有模型,并为每个语言对设置了新的 SOTA。
Nov, 2019
本篇论文提出了一种名为 ConCNER 的新颖双重对比框架,针对有限来源语言标注数据的跨语言命名实体识别问题,通过翻译对数据进行增广,并利用对比学习和知识蒸馏的方法,提高模型的性能。
Apr, 2022
本文提出一种基于师生学习方法的跨语言命名实体识别学习方法,该方法能够更好地利用源语言和目标语言中的已标注和未标注数据,特别适用于多源跨语言学习,实验证明该方法在三种目标语言上均优于现有的最先进方法。
Apr, 2020
该研究探讨了在资源匮乏的语言中高效创建高质量实体识别器的最有效方法,通过运用跨语言转移、有针对性注释同属于两种策略的方法,实现在小数据集下快速精确识别实体的结果。
Aug, 2019