分析低资源非洲命名实体识别中的跨语言传递

Sep, 2023

分析低资源非洲命名实体识别中的跨语言传递

Analysing Cross-Lingual Transfer in Low-Resourced African Named Entity Recognition

Michael Beukman, Manuel Fokam

TL;DR通过研究名词实体识别任务的十种低资源语言之间的跨语言迁移学习，我们发现自适应微调和迁移语言的选择对零射击迁移性能有何影响，发现在个别语言性能和在其他语言上的概括之间存在权衡，同时源数据集和目标数据集之间的数据重叠程度是预测迁移性能的更好指标，而不是语言之间的地理或遗传距离。

Abstract

transfer learning has led to large gains in performance for nearly all nlp tasks while making downstream models easier and faster to train. This has also been extended to →

发现论文，激发创造

使用双语词典进行标注低资源语言的模型转移

本研究提出了一种新颖的基于跨语言词向量的神经网络模型，通过高覆盖的双语词典训练，利用跨语言模型转移的方法，针对低资源语言的注释预测问题提出了解决方案，并通过多种主动学习启发式方法，提升了该方法的性能。

May, 2017

多源跨语言模型迁移：学习共享的内容

利用生成对抗网络和无监督多语言嵌入，结合多源语言训练数据的多语言转移学习方法，在多语言文本分类和序列标记任务中实现 target 语言的显著性能提升。

Oct, 2018

跨语言学习中的转移语言选择

该论文探讨了如何自动选择最佳转移语言作为排名问题，建立模型考虑诸如语言相似性，类型学特性，词汇重叠或可用数据大小等因素以执行这种预测。在代表性NLP任务的实验中，我们证明了我们的模型比单一特征的单独考虑的基准线更好地预测良好的转移语言，并了解了哪些特征对每种不同的NLP任务是最有信息量的，这可能会为未来的专家选择提供帮助。

May, 2019

少量的注释带来大量的好处：低资源命名实体识别器自举的研究

该研究探讨了在资源匮乏的语言中高效创建高质量实体识别器的最有效方法，通过运用跨语言转移、有针对性注释同属于两种策略的方法，实现在小数据集下快速精确识别实体的结果。

Aug, 2019

面向南部非洲语言的低资源神经机器翻译

通过比较零-shot 学习、迁移学习和多语言学习在三种班图语（Shona、IsiXhosa 和IsiZulu）和英语翻译中的表现，我们展示了语言相似性对英语到isiZulu的迁移学习性能的重要性，并证明多语言学习在我们的数据集上优于迁移学习和零-shot 学习，其最佳模型相对于基线英语到isiZulu模型的 BLEU得分提高了9.9、6.1和2.0，同时超过了之前的最佳表现。

Apr, 2021

MasakhaNER 2.0：面向非洲的命名实体识别迁移学习

本文研究非洲语言在自然语言处理上的挑战，针对命名实体识别任务，创造了包含20种非洲语言的最大人工标注数据集，研究了现有跨语言传递方法的表现，并发现选择最佳传递语言相较使用英语，可以提高零-shot F1分数14点。

Oct, 2022

所知多语言影响学习多语言的方法：语言特性对多语言文本转换的影响

本文在分析预训练mT5模型对90种语言对之间交叉语言联系学习时，发现源语言和目标语言的语法、形态和音韵相似度对于跨语言传递的表现具有良好的预测性，可望提高零样本性能表现。

Dec, 2022

利用语言相似性进行零样本跨语言转移语言选择

研究使用语言相似性来选择最佳的迁移语言，从而提高在情感分析、命名实体识别和依赖解析等不同自然语言处理任务中的跨语言迁移性能。

Jan, 2023

对抗性数据集上跨语言迁移至资源较少的语言的鲁棒性

多语言语言模型（MLLMs）展现了强大的跨语言转移能力，本研究旨在调查源语言应用于目标语言的效果，特别是在扰动输入测试集的情况下，发现命名实体识别的跨语言转移主要取决于实体块的重叠，研究结果提供了宝贵的跨语言转移见解并强调了在跨不同语言时考虑语言细微差异和潜在限制的必要性。

Mar, 2024

低资源非洲语言的多语言模型跨语言迁移

本研究解决了高资源多语言模型在低资源语言上效果不佳的问题，比较了单语言与多语言模型在肯尼亚语和基伦迪语之间的跨语言迁移能力。研究发现，AfriBERT在经过微调后实现了88.3%的跨语言准确率，显示多语言模型在资源有限的环境中具备强大的跨语言迁移能力。

Sep, 2024