Dec, 2022

Naamapadam:用于印度语言的大规模命名实体标注数据

TL;DR使用 Samanantar 平行语料库中英语句子与印度语句子自动对齐的方式,构建了涵盖 11 种不同印度语言的最大的 NER 数据集 Naamapadam, 包含超过 400k 条句子,涵盖 9 种语言的 3 种标准实体类别(人物、地点和组织),并在其中手动标注了 8 种语言的约 1000 个句子的测试数据。在该数据集上 fine-tuned 的 IndicNER 多语言 mBERT 模型在 8 种语言上的 F1 得分均超过 80,是现有数据集的最佳表现。数据集和模型已在 https URL 上以开源许可证发布。