pioNER:用于亚美尼亚命名实体识别的数据集和基准
我们为塔加洛语开发了一个命名实体识别(NER)数据集,填补了菲律宾语言中 NER 资源匮乏的空白。文本来源于包含新闻报道的预训练语料库,并由母语人士迭代标注。该数据集包含约 7.8k 个文档,涵盖人名、组织和地点三个实体类型。我们还在有监督学习和迁移学习环境中对最先进的方法进行了广泛的实证评估。最后,我们公开发布了数据和处理代码,以激励未来在塔加洛语自然语言处理方面的研究工作。
Nov, 2023
我们提出 AsNER,这是一个适用于资源匮乏的阿萨姆语的命名实体注释数据集,其中包括来自印度总理演讲和阿萨姆语剧本的约 99k 个单词,数据集中包含了人名,地名和地址信息,并基于 Fasttext, BERT, XLM-R, FLAIR, MuRIL 等算法进行评估。其中最高的 F1-score 在使用 MuRIL 作为词嵌入方法时达到了 80.69%的准确率。
Jul, 2022
本研究旨在解决某些语种尚未存在高质量手动标注数据集的现状,并通过引入 WikiGoldSK 数据集,评估了最先进的多语言预训练语言模型在斯洛伐克语上的效果,并与现有的银标准斯洛伐克 NER 数据集进行了比较。我们还进行了几个示范性实验,并显示使用一个银标准数据集进行训练可以获得更好的结果。最终,我们公开了数据集、代码和经过训练的模型,并采用可许可的许可条款。
Apr, 2023
命名实体识别(NER)模型在各种自然语言处理(NLP)任务中起着关键作用,包括信息抽取(IE)和文本理解。在学术写作中,对机器学习模型和数据集的引用是各种计算机科学出版物的基本组成部分,并需要准确的模型识别。尽管 NER 取得了进展,但现有的真实数据集未将细粒度类型(如 ML 模型和模型架构)视为单独的实体类型,因此基准模型无法识别它们。本文发布了一个包含 100 个手动注释的全文科学出版物的语料库,并提供了一个围绕 ML 模型和数据集的 10 种实体类型的基准模型。为了提供对 ML 模型和数据集如何被提及和利用的细致理解,我们的数据集还包含了与非正式提及相关的注释,例如 “我们的 BERT 模型” 或 “图像 CNN”。您可以在此 https URL 找到真实的数据集和代码以复制模型训练。
Nov, 2023
该研究介绍了 MSNER,一个多语种语音语料库,用于命名实体识别,并提供了用于训练、验证和评估的数据集,同时推出了一个高效的标注工具。
May, 2024
本研究展示如何使用维基百科和 Freebase 自动构建 40 种主要语言的多语言命名实体识别注释器,不需要任何人工标注数据集或语言特定的资源,通过生成分布式词表示,达到竞争性的表现,并提出了一种新的远程评估方法。
Oct, 2014
该研究提出了一个涵盖库尔德语(Sorani)中几个实体类别的数据集,涉及命名实体识别等自然语言处理领域,并公开该数据集供非商业用途,以填补目前资源匮乏的局面。
Jan, 2023
资源稀缺,如阿尔巴尼亚语等语言中的已注释文本语料库对计算语言学和自然语言处理研究构成严重障碍。本文介绍了 AlbNER,一个从阿尔巴尼亚维基百科文章中收集的具有标注命名实体的 900 个句子的语料库。使用 BERT 和 RoBERTa 变体在 AlbNER 数据上进行微调和测试的初步结果表明,模型大小对 NER 性能有轻微影响,而语言转移具有显著影响。AlbNER 语料库和这些获得的结果应作为未来实验的基线。
Sep, 2023
介绍了一种名为 MultiCoNER 的大型多语言数据集,可支持 11 种语言和 3 个领域的命名实体识别。使用两个 NER 模型对数据集进行了测试,并对其进行了评估。建立的模型都表现出了不俗的性能,但加入 Gazetteers 后性能提高了 30%。希望这个数据集能够帮助研究人员建立更为健壮的命名实体识别系统。
Aug, 2022
该论文发布了一份标准符合的,包含 109,146 句子和 2,220,856 个标记的 Hindi NER 数据集,并使用不同的语言模型对其进行了评估,表明其对于 NLP 在 Hindi 方面有着重要的作用。
Apr, 2022