尼日利亚派金语的低资源跨语言自适应训练

Jul, 2023

尼日利亚派金语的低资源跨语言自适应训练

Low-Resource Cross-Lingual Adaptive Training for Nigerian Pidgin

Pin-Jie Lin, Muhammed Saeed, Ernie Chang, Merel Scholman

TL;DR本研究针对低资源语言建设有效的口语处理系统提出了一个跨语言自适应训练框架，包括持续和任务自适应训练，以适应基于预训练模型的自然语言处理任务，采用英语预训练语言模型作为英语-Pidgin任务的强先验，取得了最高2.38的BLEU分数，加入正字法数据增强和反向翻译的任务自适应训练对模型性能有显著影响。

Abstract

Developing effective spoken language processing systems for low-resource languages poses several challenges due to the lack of parallel data and limited resources for fine-tuning models. In this work, we target o

发现论文，激发创造

PidginUNMT：从西非皮钦语到英语的无监督神经机器翻译

本文介绍了针对西非洋泾浜英语最常用的变体进行的第一项自然语言处理工作，提供了标准语料库、跨语言嵌入和无监督神经机器翻译模型等三个贡献，有效地降低了未来 NLP 工作的准入门槛。

Dec, 2019

通过将英语数据作为转换点和自我训练生成未加监督的洋泾浜文本

该研究致力于使用自然语言生成技术，通过建立一个能够根据结构化数据自动生成皮钦英语描述的系统，填补皮钦英语机器翻译系统和相关自然语言处理数据集的空缺。通过训练以英文为目标语的数据文本生成系统，然后采用无监督的神经机器翻译技术和自我训练等方法，我们在Pidgin-to-English跨语言对齐方面取得了进展。结果表明，虽然还远未达到实际使用的水平，但基于中心轴和自我训练技术可以提高皮钦文本的流畅性和相关性。

Mar, 2020

尼日利亚皮钦语的监督和无监督神经机器翻译基线

研究实现了监督和无监督神经机器翻译模型来翻译英语和尼日利亚皮钦语，比较了不同的分词方法，在英语和尼日利亚皮钦语之间建立了良好的翻译基础。

Mar, 2020

南非语言低资源语言建模

本文通过研究对南非低资源语言的开放词汇语言模型的表现来评估不同变种的N元模型、前馈神经网络、循环神经网络和Transformers网络。这项研究有望为非洲语言的多语种和低资源语言建模开辟新的研究途径。

Apr, 2021

通过多语言自适应微调将预训练语言模型改进到非洲语言

本文通过多语言自适应微调方法，改进了前馈神经网络(AfriBERTa和XLM-R)模型，使其适配17种最常用的非洲语言及其他3种在非洲大陆广泛使用的高资源语言，在NER、新闻主题分类和情感分类等自然语言处理任务中具有竞争性，且需要的磁盘空间明显少于单个语言的自适应微调方法。同时，本文的适配模型还能够改善参数效率微调方法的零-shot跨语言转移能力。

Apr, 2022

通过多语言微调和持续预训练为新的欠资源语言调整多语音表示模型

本研究尝试将预训练的多语言wav2vec 2.0神经模型应用于研究极度濒危的阿伊努语，通过多语言微调和预训练对模型进行改进，结果显示继续预训练是适应新语言的最有效方法，并且利用类似语言的数据进行微调可以显著减少错误率。

Jan, 2023

适应低资源双重限制：研究在非洲低资源语言中使用低计算方法

通过对非洲语言NLP的低成本实验，我们评估了语言适配器的效果，并发现它们可以在仅使用免费计算资源的情况下与计算资源密集型的大规模预训练语言模型相媲美，从而打开了进一步实验和探索的可能。

Mar, 2023

模型化正字变化提升尼日利亚商业英语的NLP性能

试验展示了将来自其他语料库的真实文本与合成的正字法变异相结合以增强训练数据的益处，在情感分析方面效果提升了2.1分，英文翻译方面效果提升了1.4 BLEU分。

Apr, 2024

针对低资源语言家族的定向多语言适应

对于低资源语言，通过针对性的多语言训练，依照乌拉尔语系为案例进行调整，通过实验证明适应性的词汇大小对于低资源语言的影响相对较小，低资源语言在训练阶段能够进行积极采样而对高资源语言的性能影响微乎其微，从而为特定语境中的语言适应性提供了新的最佳实践。

May, 2024

低资源非洲语言的多语言模型跨语言迁移

本研究解决了高资源多语言模型在低资源语言上效果不佳的问题，比较了单语言与多语言模型在肯尼亚语和基伦迪语之间的跨语言迁移能力。研究发现，AfriBERT在经过微调后实现了88.3%的跨语言准确率，显示多语言模型在资源有限的环境中具备强大的跨语言迁移能力。

Sep, 2024