为塔加洛语开发命名实体识别数据集
本研究展示如何使用维基百科和Freebase自动构建40种主要语言的多语言命名实体识别注释器,不需要任何人工标注数据集或语言特定的资源,通过生成分布式词表示,达到竞争性的表现,并提出了一种新的远程评估方法。
Oct, 2014
通过利用英印平行语料库和英文命名实体识别数据集,在低资源背景下,提出了一种用于印度语言的命名实体识别端到端框架。该框架包括一种注释投影方法,利用源语言(英语)数据上的单词对齐分数和命名实体识别标记预测置信度得分生成目标印度语言中的弱标签数据,并在Teacher-Student模型的伪标签以及对生成的弱标签数据的预测上联合优化。对三种印度语言(印地语、孟加拉语和古吉拉特语)的手动注释测试集进行了评估。实证结果显示,在所有语言上,与零-shot迁移学习模型相比,所提出的框架表现出至少10%的性能提升,这表明生成的目标印度语言中的弱标签数据可以很好地补充已经有良好注释的源语言数据来提高性能。
Nov, 2021
该论文发布了一份标准符合的,包含109,146句子和2,220,856个标记的Hindi NER数据集,并使用不同的语言模型对其进行了评估,表明其对于NLP在Hindi方面有着重要的作用。
Apr, 2022
该研究探讨在没有足够标记数据的情况下,使用替代语言资源来建立任务特定模型的方法,以及利用词嵌入和数据增强来改善性能,针对在语法分析方面表现不好的Tagalog语言进行了实验,并展示了这些零点和几点方法相比于基于监督学习的最先进方法,在领域内外的Tagalog文本的语法分析方面具有显著的改进。
Aug, 2022
本文介绍了在新闻领域中的第一个 Tshivenda 命名实体识别数据集 MphayaNER,研究了其性能和与其他南部班图语的零样本迁移;实验证明与 chiShona 的数据融合可以显著提高模型性能,同时发布了 MphayaNER 和基线模型。
Apr, 2023
为鼓励该领域的研究工作增长,本研究引入了CebuaNER,该模型是用于Cebuano语言中命名实体识别(NER)的新基线模型。该模型在训练算法时收集并标注了超过4,000篇新闻文章,并在精确率、召回率和F1三个指标上取得了超过70%的良好表现,同时在与Tagalog语言的跨语言设置中显示出潜在的有效性。
Oct, 2023
通过大规模语言模型,命名实体识别可以达到更精细化的实体类型识别、零样本识别和语句检索等目标,但这些目标仍然需要进一步研究和探索。
Oct, 2023
介绍了一个名为Universal NER (UNER)的开源项目,旨在开发多种语言的黄金标准NER基准;UNER的目标是提供高质量的、跨语言一致的标注,以促进和标准化多语言NER研究。UNER v1包含使用一致的跨语言模式在12种不同语言中注释的18个数据集。在本文中,我们详细介绍了UNER的数据集创建和组成,并提供了在本语言和跨语言学习设置下的初始建模基线。我们向公众发布了数据、代码和拟合模型。
Nov, 2023
通过构建一个针对马来西亚英语的新闻数据集,并利用该数据集进行 spaCy NER 工具的微调,我们成功地改进了马来西亚英语中实体识别的性能。该数据集将在马来西亚英语的自然语言处理研究中作出重要贡献,尤其是在命名实体识别和关系抽取方面。
Feb, 2024
对印度语言进行多语言命名实体识别的挑战分析及旨在应对其的技术的提出。同时,提供了包括两个主要印度语言家族中四种印度语言在内的人工标注命名实体语料库,并在该数据集上对多语言模型进行了微调,平均F1得分达到0.80。在印度语言的完全未见基准数据集上实现了可比的性能,证实了我们模型的实用性。
May, 2024