通过多语言自适应微调将预训练语言模型改进到非洲语言

Apr, 2022

通过多语言自适应微调将预训练语言模型改进到非洲语言

Multilingual Language Model Adaptive Fine-Tuning: A Study on African Languages

Jesujoba O. Alabi, David Ifeoluwa Adelani, Marius Mosbach, Dietrich Klakow

TL;DR本文通过多语言自适应微调方法，改进了前馈神经网络(AfriBERTa和XLM-R)模型，使其适配17种最常用的非洲语言及其他3种在非洲大陆广泛使用的高资源语言，在NER、新闻主题分类和情感分类等自然语言处理任务中具有竞争性，且需要的磁盘空间明显少于单个语言的自适应微调方法。同时，本文的适配模型还能够改善参数效率微调方法的零-shot跨语言转移能力。

Abstract

multilingual pre-trained language models (PLMs) have demonstrated impressive performance on several downstream tasks on both high resourced and low-resourced languages. However, there is still a large performance

发现论文，激发创造

MultiFiT：高效的多语言语言模型微调

本研究提出了 Multi-lingual language model Fine-Tuning (MultiFiT) 方法，使得从未标注的数据中有效地训练和优化预训练语言模型，特别对于低资源性语言，实现了零样本跨语言模型，并在两个跨语言分类数据集中优于那些使用更多数据和计算的预训练模型。

Sep, 2019

如何将预训练的多语言模型应用至1600种语言

使用新约圣经等语料，对现有方法对新语言进行预训练模型转移进行了评估，并发现继续预训练是最好的方法，并且在词性标注和命名实体识别等任务中可以获得高达17.69％的精度提升。

Jun, 2021

通过多语言微调和持续预训练为新的欠资源语言调整多语音表示模型

本研究尝试将预训练的多语言wav2vec 2.0神经模型应用于研究极度濒危的阿伊努语，通过多语言微调和预训练对模型进行改进，结果显示继续预训练是适应新语言的最有效方法，并且利用类似语言的数据进行微调可以显著减少错误率。

Jan, 2023

SemEval-2023任务12中的UIO：低资源语言情感分类的多语言微调

本研究旨在探讨如何利用多语言大型语言模型进行非预训练语言的情感分析，实验结果表明在提供的数据集中，使用数千样本的单语言微调可以获得最佳效果。

Apr, 2023

SemEval-2023任务12：通过多语言预训练语言模型微调实现低资源语言文本分类

本研究利用多种多语种XLM-R模型和多样数据集，针对AfriSenti-SemEval 2023共享任务12的非洲语言情感分析模型进行了研究，最终在 Subtask B, Track 16: 多语言中获得了第三名的好成绩，但在某些语言表现不佳，表明需要建立更全面的数据集和模型来推进低资源非洲语言的情感分析研究。

May, 2023

尼日利亚派金语的低资源跨语言自适应训练

本研究针对低资源语言建设有效的口语处理系统提出了一个跨语言自适应训练框架，包括持续和任务自适应训练，以适应基于预训练模型的自然语言处理任务，采用英语预训练语言模型作为英语-Pidgin任务的强先验，取得了最高2.38的BLEU分数，加入正字法数据增强和反向翻译的任务自适应训练对模型性能有显著影响。

Jul, 2023

大型语言模型在非洲语言上的表现如何?

近期，在自然语言处理方面的最新进展中，大型语言模型（LLM）得到了广泛应用，它们在上下文学习下表现出良好性能，甚至适用于未知的任务和语言。然而，它们在非洲语言上的性能尚不清楚。我们研究了三种广泛使用的大型语言模型（mT0，LLaMa 2和GPT-4）在30种非洲语言上的五个任务（新闻主题分类，情感分类，机器翻译，问答和命名实体识别）的表现。结果显示，所有的大型语言模型在非洲语言上的表现都低于水平，与英语等高资源语言相比，性能差距较大。我们发现，GPT-4在分类任务上表现平均或令人印象深刻，但在机器翻译等生成任务上表现非常糟糕。令人惊讶的是，我们发现mT0在非洲语言上的跨语言问答表现最佳，超过了最先进的有监督模型（即，微调的mT5）和GPT-4的表现。总体而言，由于LLaMa 2具有有限的多语言能力和以英语为中心的预训练语料库，因此其表现最差。总的来说，我们的研究结果呼吁确保非洲语言在大型语言模型中得到很好的代表，因为这些模型越来越受欢迎。

Nov, 2023

ANGOFA：利用OFA嵌入初始化和合成数据的安哥拉语言模型

通过引入四个针对安哥拉语言进行微调的针对预先训练语言模型（PLM）进行定制的PLM，采用多语言自适应微调（MAFT）方法，本文调查了在下游任务中通过信息嵌入初始化和合成数据来增强MAFT模型性能的作用，将基线模型在SOTA AfroXLMR-base（通过MAFT开发的）和OFA（有效的嵌入初始化）上分别提高了12.3和3.8个百分点。

Apr, 2024

大型语言模型在翻译中的多语言程度如何？

通过在平行文本上对大型语言模型 (LLM) 进行微调，新的机器翻译范式已被证明能够胜过使用大量平行数据以监督方式训练的专用翻译系统，然而，对于大规模多语言机器翻译，是否需要对少数语言对进行专门的模型微调仍然不清楚。本研究通过对TOWER系列语言模型在132个来自多语言平行数据FLORES-200的翻译任务上进行实证评估，发现翻译微调即使对于零样本语言平均而言也会提高翻译质量，但其影响因所涉及的语言对而异。这些结果呼吁进一步研究以有效实现大规模多语言翻译。

May, 2024

低资源非洲语言的多语言模型跨语言迁移

本研究解决了高资源多语言模型在低资源语言上效果不佳的问题，比较了单语言与多语言模型在肯尼亚语和基伦迪语之间的跨语言迁移能力。研究发现，AfriBERT在经过微调后实现了88.3%的跨语言准确率，显示多语言模型在资源有限的环境中具备强大的跨语言迁移能力。

Sep, 2024