MasakhaNER 2.0：面向非洲的命名实体识别迁移学习

Oct, 2022

MasakhaNER 2.0：面向非洲的命名实体识别迁移学习

MasakhaNER 2.0: Africa-centric Transfer Learning for Named Entity Recognition

David Ifeoluwa Adelani, Graham Neubig, Sebastian Ruder, Shruti Rijhwani, Michael Beukman...

TL;DR本文研究非洲语言在自然语言处理上的挑战，针对命名实体识别任务，创造了包含20种非洲语言的最大人工标注数据集，研究了现有跨语言传递方法的表现，并发现选择最佳传递语言相较使用英语，可以提高零-shot F1分数14点。

Abstract

african languages are spoken by over a billion people, but are underrepresented in nlp research and development. The challenges impeding progress include the limited availability of annotated datasets, as well as

发现论文，激发创造

少量的注释带来大量的好处：低资源命名实体识别器自举的研究

该研究探讨了在资源匮乏的语言中高效创建高质量实体识别器的最有效方法，通过运用跨语言转移、有针对性注释同属于两种策略的方法，实现在小数据集下快速精确识别实体的结果。

Aug, 2019

UniTrans: 统一模型转移和数据转移，利用未标记的数据进行跨语言命名实体识别

本文提出了一种称为UniTrans的新方法，以统一模型和数据转移，通过增强的知识蒸馏从未标记的目标语言数据中利用可用信息，对比4种目标语言的基准数据集表明，UniTrans显著优于现有的最先进方法。

Jul, 2020

MasakhaNER: 面向非洲语言的命名实体识别

本文介绍了第一个大型公开高质量的非洲十种语言的命名实体识别数据集，研究这些语言对命名实体识别带来的挑战，并在监督和迁移学习设置下进行了广泛的实证评估和分析，旨在启发未来的非洲自然语言处理研究。

Mar, 2021

NaijaNER: 面向尼日利亚5种语言的全面命名实体识别

该研究研究了5种尼日利亚语言（尼日利亚英语，尼日利亚皮钦英语，伊博语，约鲁巴语和豪萨语）的命名实体识别，在建立个体模型和组合模型的基础上，提高了信息提取的效率，提高了模型的再利用性和生产部署的便利性。

Mar, 2021

注释密度对非洲语言命名实体识别模型性能的影响

本文分析了基于数据集质量的各种模型的性能。我们评估了针对一些非洲命名实体识别数据集的每句实体密度不同的预训练模型，并希望通过这项研究改进低资源语言的自然语言处理研究方法。

Aug, 2022

运用辅助语言和迁移学习技术提高低资源实体命名识别

论文探究了如何在低资源语言如印地语和马拉地语中通过适应BERT模型，训练监督学习的NER模型，并比较了多语言模型与单语言模型的性能，研究结果表明多语言模型可以提高NER的精度。

Jun, 2023

探索口语命名实体识别：跨语言视角

本研究利用荷兰语、英语和德语之间的跨语言转移学习，使用管道和端到端（E2E）方案，利用自定义伪标注数据集的Wav2Vec2-XLS-R模型，研究了几种跨语言系统的适应性，结果表明，端到端的口语命名实体识别优于基于管道的替代方案。转移学习从德语到荷兰语的效果比荷兰语E2E系统高7％，比管道系统高4％。

Jul, 2023

分析低资源非洲命名实体识别中的跨语言传递

通过研究名词实体识别任务的十种低资源语言之间的跨语言迁移学习，我们发现自适应微调和迁移语言的选择对零射击迁移性能有何影响，发现在个别语言性能和在其他语言上的概括之间存在权衡，同时源数据集和目标数据集之间的数据重叠程度是预测迁移性能的更好指标，而不是语言之间的地理或遗传距离。

Sep, 2023

通用NER：金标准多语言命名实体识别基准

介绍了一个名为Universal NER (UNER)的开源项目，旨在开发多种语言的黄金标准NER基准；UNER的目标是提供高质量的、跨语言一致的标注，以促进和标准化多语言NER研究。UNER v1包含使用一致的跨语言模式在12种不同语言中注释的18个数据集。在本文中，我们详细介绍了UNER的数据集创建和组成，并提供了在本语言和跨语言学习设置下的初始建模基线。我们向公众发布了数据、代码和拟合模型。

Nov, 2023

对抗性数据集上跨语言迁移至资源较少的语言的鲁棒性

多语言语言模型（MLLMs）展现了强大的跨语言转移能力，本研究旨在调查源语言应用于目标语言的效果，特别是在扰动输入测试集的情况下，发现命名实体识别的跨语言转移主要取决于实体块的重叠，研究结果提供了宝贵的跨语言转移见解并强调了在跨不同语言时考虑语言细微差异和潜在限制的必要性。

Mar, 2024