跨语言命名实体识别中的实体投影机器翻译
本文提出两种弱监督的跨语言实体标识方法,分别基于注释投影和词嵌入,无需使用目标语言的人工注释数据。同时,我们设计了两种协同解码方案,将两个基于投影的方法的输出相结合,评估表明这种组合性的方法优于其他三种弱监督方法。
Jul, 2017
通过将机器翻译应用于英语数据集,本研究聚焦于生成波斯语命名实体数据集。通过实验评估,最高的 F1 分数是 CoNLL 2003 数据集的 85.11%。本研究的结果强调了机器翻译在为低资源语言(如波斯语)创建高质量的命名实体识别数据集方面的潜力,并提供了有关机器翻译在此任务中有效性的见解。此外,此方法可用于增强低资源语言中的数据或创建嘈杂数据以使命名实体系统更加稳健并改进它们。
Feb, 2023
提出了一种跨语言冷启动实体识别框架 (CROP),通过多语言标记序列翻译模型,将目标序列首先翻译为源语言并由源 NER 模型标记,然后采用标记的序列翻译模型将标记的序列投射回目标语言并标记原始句子,最终实现了端到端模型。在两个数据集上进行的实验结果表明,该方法大大优于先前的强基线方法,并实现了最先进的性能。
Oct, 2022
本文提出一种基于词级对抗训练、参数共享和特征增强的无监督跨语言命名实体识别模型,可在不依靠双语词典或平行数据的情况下,将命名实体知识从一种语言转移到另一种语言。通过对五种不同语言的实验表明,该模型的有效性优于现有模型,并为每个语言对设置了新的 SOTA。
Nov, 2019
本文针对跨语言 NER 任务,提出了一种基于平行语料库的名词实体对齐模型,并在没有监督模型的情况下将 NER 从英语部分传递到目标语言中,以此获得更自然流畅和细微差别的数据集来提高模型性能,在 4 种目标语言的基准数据集上得到了具有竞争力的结果。
Jan, 2021
零 - shot 跨语言迁移利用多语言 LLMs 已成为一种流行的学习范式,适用于低资源语言没有标记的训练数据。然而,在涉及单词和短语细粒度预测的 NLP 任务中,零 - shot 跨语言迁移学习性能远远落后于有监督的微调方法。因此,通过使用翻译和标签映射来进一步提高性能是很常见的。本文中,我们探索了一种通过限制解码进行标签映射的新方法,克服了先前提到的问题。我们的新方法不仅能保持翻译文本的质量,还具有适用于训练和测试数据的多样性。我们在两个跨语言迁移任务上进行评估,分别是命名实体识别和事件论证抽取,涵盖了 20 种语言。结果表明,我们的方法比现有的基于标记的方法具有更好的性能,并且比依赖于外部词对齐的其他标签映射方法表现更好。
Feb, 2024
本文介绍了一种通过将名称实体作为预处理步骤进行翻译 / 音译来提高神经机器翻译质量的方法,并进行了实验证明其性能提高。考虑了三种类型的名称实体,包括人名、地名和组织名。结果表明,该系统能够正确翻译大多数名称实体,其准确率为人名 99.86%,地名 99.63%,组织名 99.05%,总体准确率为 99.52%。
May, 2023
本研究提出了一种跨语言标注投影方法,用于无需依赖单一语言学工具的开放域关系提取系统,同时发布了来自维基百科中 61 种语言的手动注释和提取的关系。
Mar, 2015
提出了一种基于双语单词嵌入的翻译方法,以改善跨语言的 named-entity recognition 性能,并使用 self-attention 来提高鲁棒性。在对常见语言的测试中达到了最先进或具有竞争力的 NER 性能。
Aug, 2018
本文描述了微软在交叉语种命名实体识别中的新实践方法,使用源语种的标注数据和目标语种的无标注数据,采用半监督学习和强化学习的方法来提取弱监督信号并实现了新的最先进性能优于现有的模型。
Jun, 2021