HiNER:一个大规模的印地语命名实体识别数据集
对印度语言进行多语言命名实体识别的挑战分析及旨在应对其的技术的提出。同时,提供了包括两个主要印度语言家族中四种印度语言在内的人工标注命名实体语料库,并在该数据集上对多语言模型进行了微调,平均 F1 得分达到 0.80。在印度语言的完全未见基准数据集上实现了可比的性能,证实了我们模型的实用性。
May, 2024
通过利用英印平行语料库和英文命名实体识别数据集,在低资源背景下,提出了一种用于印度语言的命名实体识别端到端框架。该框架包括一种注释投影方法,利用源语言(英语)数据上的单词对齐分数和命名实体识别标记预测置信度得分生成目标印度语言中的弱标签数据,并在 Teacher-Student 模型的伪标签以及对生成的弱标签数据的预测上联合优化。对三种印度语言(印地语、孟加拉语和古吉拉特语)的手动注释测试集进行了评估。实证结果显示,在所有语言上,与零 - shot 迁移学习模型相比,所提出的框架表现出至少 10%的性能提升,这表明生成的目标印度语言中的弱标签数据可以很好地补充已经有良好注释的源语言数据来提高性能。
Nov, 2021
论文探究了如何在低资源语言如印地语和马拉地语中通过适应 BERT 模型,训练监督学习的 NER 模型,并比较了多语言模型与单语言模型的性能,研究结果表明多语言模型可以提高 NER 的精度。
Jun, 2023
本文首次提出 L3Cube-MahaNER,这是一份 Marathi 语言的命名实体识别的黄金标准数据集,使用了不同基于 CNN、LSTM、变压器的模型进行了基准测试,发现 MahaBERT 表现最佳。
Apr, 2022
我们为塔加洛语开发了一个命名实体识别(NER)数据集,填补了菲律宾语言中 NER 资源匮乏的空白。文本来源于包含新闻报道的预训练语料库,并由母语人士迭代标注。该数据集包含约 7.8k 个文档,涵盖人名、组织和地点三个实体类型。我们还在有监督学习和迁移学习环境中对最先进的方法进行了广泛的实证评估。最后,我们公开发布了数据和处理代码,以激励未来在塔加洛语自然语言处理方面的研究工作。
Nov, 2023
本文研究低资源印度语言 Hindi 和 Marathi 的命名实体识别 (NER),使用 base-BERT,RoBERTa 和 AlBERT 等变体进行了基准测试,并在不同单语和多语 Transformer 模型之间进行了详细比较,发现 MahaRoBERTa 单语模型在 Marathi NER 方面表现最佳,而多语言 XLM-RoBERTa 在 Hindi NER 方面表现最佳。文中还进行了跨语言评估和提出了简单基线。
Mar, 2022
我们提出 AsNER,这是一个适用于资源匮乏的阿萨姆语的命名实体注释数据集,其中包括来自印度总理演讲和阿萨姆语剧本的约 99k 个单词,数据集中包含了人名,地名和地址信息,并基于 Fasttext, BERT, XLM-R, FLAIR, MuRIL 等算法进行评估。其中最高的 F1-score 在使用 MuRIL 作为词嵌入方法时达到了 80.69%的准确率。
Jul, 2022
本文介绍了第一个大型公开高质量的非洲十种语言的命名实体识别数据集,研究这些语言对命名实体识别带来的挑战,并在监督和迁移学习设置下进行了广泛的实证评估和分析,旨在启发未来的非洲自然语言处理研究。
Mar, 2021
本研究主要介绍了一个公共的法律命名实体识别数据集 E-NER,它表明将通用英语文本数据集训练的命名实体识别模型应用于法律文本会导致重大的性能下降,与在 E-NER 数据集上训练和测试相比,F1 分数下降了 29.4%至 60.4%。
Dec, 2022
该研究介绍了 MSNER,一个多语种语音语料库,用于命名实体识别,并提供了用于训练、验证和评估的数据集,同时推出了一个高效的标注工具。
May, 2024