通过翻译和注解融合实现更好的低资源实体识别

May, 2023

通过翻译和注解融合实现更好的低资源实体识别

Better Low-Resource Entity Recognition Through Translation and Annotation Fusion

Yang Chen, Vedaant Shah, Alan Ritter

TL;DR使用TransFusion模型将低资源语言的文本翻译成高资源语言进行训练及注释，再将结构融合回低资源语言，有效提升跨语言命名实体识别(NER)的性能。

Abstract

Pre-trained multilingual language models have enabled significant advancements in cross-lingual transfer. However, these models often exhibit a performance disparity when transferring from high-resource languages

发现论文，激发创造

少量的注释带来大量的好处：低资源命名实体识别器自举的研究

该研究探讨了在资源匮乏的语言中高效创建高质量实体识别器的最有效方法，通过运用跨语言转移、有针对性注释同属于两种策略的方法，实现在小数据集下快速精确识别实体的结果。

Aug, 2019

多语言命名实体识别中的转移来源

本论文研究多语言命名实体识别问题，提出用多语言数据训练模型，并在单语言数据上进行微调，通过参数共享和微调提高多语言模型的性能。

May, 2020

利用非说话者注释构建低资源命名实体识别模型

通过使用非母语注释方法，在低资源情况下的自然语言处理中提出一种改进低资源NER模型的方法，通过实验验证该方法的有效性及优越性，可以在一定程度上替代现有的跨语言方法。

Jun, 2020

低资源跨语言命名实体识别的双重对比框架

本篇论文提出了一种名为ConCNER的新颖双重对比框架，针对有限来源语言标注数据的跨语言命名实体识别问题，通过翻译对数据进行增广，并利用对比学习和知识蒸馏的方法，提高模型的性能。

Apr, 2022

T-NER：基于Transformer的命名实体识别通用Python库

本文介绍了一种基于Transformer的python库T-NER，用于命名实体识别的LM finetuning，并展示了其在跨领域和跨语言泛化方面的研究和应用潜力，同时提供了一个Web应用程序，使得非专业编程人员能够与模型进行交互，进一步促进模型质量的定性评估。研究结果表明，即使利用预训练的大型LM进行fine-tuning，跨领域泛化仍然有挑战，但与数据集的相关性更强的特定领域的性能通常具有可比性。此外，我们还通过 Hugging Face 模型沙盒发布了所有的LM checkpoints来促进未来研究。

Sep, 2022

CROP：多语言标注序列翻译实现的零样本跨语言命名实体识别

提出了一种跨语言冷启动实体识别框架(CROP)，通过多语言标记序列翻译模型，将目标序列首先翻译为源语言并由源NER模型标记，然后采用标记的序列翻译模型将标记的序列投射回目标语言并标记原始句子，最终实现了端到端模型。在两个数据集上进行的实验结果表明，该方法大大优于先前的强基线方法，并实现了最先进的性能。

Oct, 2022

运用辅助语言和迁移学习技术提高低资源实体命名识别

论文探究了如何在低资源语言如印地语和马拉地语中通过适应BERT模型，训练监督学习的NER模型，并比较了多语言模型与单语言模型的性能，研究结果表明多语言模型可以提高NER的精度。

Jun, 2023

分析低资源非洲命名实体识别中的跨语言传递

通过研究名词实体识别任务的十种低资源语言之间的跨语言迁移学习，我们发现自适应微调和迁移语言的选择对零射击迁移性能有何影响，发现在个别语言性能和在其他语言上的概括之间存在权衡，同时源数据集和目标数据集之间的数据重叠程度是预测迁移性能的更好指标，而不是语言之间的地理或遗传距离。

Sep, 2023

对抗性数据集上跨语言迁移至资源较少的语言的鲁棒性

多语言语言模型（MLLMs）展现了强大的跨语言转移能力，本研究旨在调查源语言应用于目标语言的效果，特别是在扰动输入测试集的情况下，发现命名实体识别的跨语言转移主要取决于实体块的重叠，研究结果提供了宝贵的跨语言转移见解并强调了在跨不同语言时考虑语言细微差异和潜在限制的必要性。

Mar, 2024

跨语言、字符级别的低资源命名实体识别的神经条件随机场

通过字符级神经CRF模型进行跨多个语言的命名实体识别的迁移学习，使得在资源丰富和资源匮乏的语言中都能提高F1分数，并在基线上提升9.8个点。

Apr, 2024