尼泊尔语命名实体识别
对印度语言进行多语言命名实体识别的挑战分析及旨在应对其的技术的提出。同时,提供了包括两个主要印度语言家族中四种印度语言在内的人工标注命名实体语料库,并在该数据集上对多语言模型进行了微调,平均 F1 得分达到 0.80。在印度语言的完全未见基准数据集上实现了可比的性能,证实了我们模型的实用性。
May, 2024
通过利用英印平行语料库和英文命名实体识别数据集,在低资源背景下,提出了一种用于印度语言的命名实体识别端到端框架。该框架包括一种注释投影方法,利用源语言(英语)数据上的单词对齐分数和命名实体识别标记预测置信度得分生成目标印度语言中的弱标签数据,并在 Teacher-Student 模型的伪标签以及对生成的弱标签数据的预测上联合优化。对三种印度语言(印地语、孟加拉语和古吉拉特语)的手动注释测试集进行了评估。实证结果显示,在所有语言上,与零 - shot 迁移学习模型相比,所提出的框架表现出至少 10%的性能提升,这表明生成的目标印度语言中的弱标签数据可以很好地补充已经有良好注释的源语言数据来提高性能。
Nov, 2021
本文研究低资源印度语言 Hindi 和 Marathi 的命名实体识别 (NER),使用 base-BERT,RoBERTa 和 AlBERT 等变体进行了基准测试,并在不同单语和多语 Transformer 模型之间进行了详细比较,发现 MahaRoBERTa 单语模型在 Marathi NER 方面表现最佳,而多语言 XLM-RoBERTa 在 Hindi NER 方面表现最佳。文中还进行了跨语言评估和提出了简单基线。
Mar, 2022
本研究探索了孟加拉命名实体识别领域的现有研究状况,找出了当前技术和数据集所面临的限制,并提出通过使用新颖的 Gazetteer 和先进的自然语言处理工具来改善命名实体识别的性能。
Jan, 2024
本文提出一种基于词级对抗训练、参数共享和特征增强的无监督跨语言命名实体识别模型,可在不依靠双语词典或平行数据的情况下,将命名实体知识从一种语言转移到另一种语言。通过对五种不同语言的实验表明,该模型的有效性优于现有模型,并为每个语言对设置了新的 SOTA。
Nov, 2019
论文探究了如何在低资源语言如印地语和马拉地语中通过适应 BERT 模型,训练监督学习的 NER 模型,并比较了多语言模型与单语言模型的性能,研究结果表明多语言模型可以提高 NER 的精度。
Jun, 2023
该论文发布了一份标准符合的,包含 109,146 句子和 2,220,856 个标记的 Hindi NER 数据集,并使用不同的语言模型对其进行了评估,表明其对于 NLP 在 Hindi 方面有着重要的作用。
Apr, 2022
本文介绍基于双向 LSTM 和条件随机场,以及基于转移的方法的两种新的神经网络模型,这些模型不依赖于领域特定的知识和语言。通过使用监督语料库和未标注语料库,字符表示和无监督的学习表示,这些模型在四种语言中实现了名词实体识别的最先进性能。
Mar, 2016
本研究展示如何使用维基百科和 Freebase 自动构建 40 种主要语言的多语言命名实体识别注释器,不需要任何人工标注数据集或语言特定的资源,通过生成分布式词表示,达到竞争性的表现,并提出了一种新的远程评估方法。
Oct, 2014