猎豹: 517 种非洲语言的自然语言生成

Jan, 2024

猎豹: 517 种非洲语言的自然语言生成

Cheetah: Natural Language Generation for 517 African Languages

Ife Adebara, AbdelRahim Elmadany, Muhammad Abdul-Mageed

TL;DR开发了覆盖 517 种非洲语言和方言的多语种自然语言生成（NLG）语言模型 Cheetah，通过全面评估和人工评估展示了其在非洲语言文本生成任务中的出色性能，并为促进语言多样性和非洲社区的实际 NLG 应用开发提供一种解决方案。

Abstract

low-resource african languages pose unique challenges for natural language processing (NLP) tasks, including natural language generation (NLG). In this paper, we develop →

low-resource african languages natural language generation cheetah linguistic diversity nlp research

发现论文，激发创造

SERENGETI：非洲大规模多语言模型

本文介绍了 SERENGETI 多语言模型，覆盖了 517 种非洲语言和方言，并在 8 项自然语言理解任务中得到了较高的表现，特别是在零样本测试下的表现受到了相互可理解的影响。

Dec, 2022

用于南非语言的神经机器翻译基准测试

该研究使用公共数据集为 5 种南非语言训练了神经机器翻译模型，并提供了训练和评估模型的代码，旨在促进南非语言领域的未来研究。

Jun, 2019

大型语言模型在非洲语言上的表现如何？

近期，在自然语言处理方面的最新进展中，大型语言模型（LLM）得到了广泛应用，它们在上下文学习下表现出良好性能，甚至适用于未知的任务和语言。然而，它们在非洲语言上的性能尚不清楚。我们研究了三种广泛使用的大型语言模型（mT0，LLaMa 2 和 GPT-4）在 30 种非洲语言上的五个任务（新闻主题分类，情感分类，机器翻译，问答和命名实体识别）的表现。结果显示，所有的大型语言模型在非洲语言上的表现都低于水平，与英语等高资源语言相比，性能差距较大。我们发现，GPT-4 在分类任务上表现平均或令人印象深刻，但在机器翻译等生成任务上表现非常糟糕。令人惊讶的是，我们发现 mT0 在非洲语言上的跨语言问答表现最佳，超过了最先进的有监督模型（即，微调的 mT5）和 GPT-4 的表现。总体而言，由于 LLaMa 2 具有有限的多语言能力和以英语为中心的预训练语料库，因此其表现最差。总的来说，我们的研究结果呼吁确保非洲语言在大型语言模型中得到很好的代表，因为这些模型越来越受欢迎。

Nov, 2023

MasakhaNEWS：面向非洲语言的新闻主题分类

该论文提出了 MasakhaNEWS 数据集来支持在 16 种非洲语言上的新闻主题分类研究，并探索了多种机器学习方法以支持零样本和少样本学习。通过使用 ChatGPT 等技术实现了在低资源非洲语言中进行新闻主题分类任务，能够在零样本情况下实现平均 F1 得分 70，利用 PET 方法，10 个样本即可实现较好的效果。

Apr, 2023

商用大型语言模型在非洲语言上的表现如何？

本论文研究了商用大型语言模型在非洲语言的表现，发现这些模型在非洲语言中的机器翻译表现不如文本分类，并呼吁开发商要加入非洲语言以提高其表现。

May, 2023

非洲语言词典和平行数据集的协同构建：初步评估

该研究报告介绍了 NTeALan 协会在非洲语言处理中建立开源平台协作构建词典数据等资源的最新成果。

Mar, 2021

SemEval-2023 任务 12：通过多语言预训练语言模型微调实现低资源语言文本分类

本研究利用多种多语种 XLM-R 模型和多样数据集，针对 AfriSenti-SemEval 2023 共享任务 12 的非洲语言情感分析模型进行了研究，最终在 Subtask B, Track 16: 多语言中获得了第三名的好成绩，但在某些语言表现不佳，表明需要建立更全面的数据集和模型来推进低资源非洲语言的情感分析研究。

May, 2023

IrokoBench：大型语言模型时代的非洲语言新基准

本研究使用 IrokoBench 数据集对低资源的非洲语言进行了零样本学习、少样本学习和翻译测试，并发现了高资源语言和低资源非洲语言之间的显著性能差距。机器翻译测试集从而改善了一些以英语为中心的大型模型的表现，结果表明需要更多的努力来开发和适应非洲语言的大型语言模型。

Jun, 2024

南非语言低资源语言建模

本文通过研究对南非低资源语言的开放词汇语言模型的表现来评估不同变种的 N 元模型、前馈神经网络、循环神经网络和 Transformers 网络。这项研究有望为非洲语言的多语种和低资源语言建模开辟新的研究途径。

Apr, 2021

BanglaNLG 和 BanglaT5：用于评估孟加拉低资源自然语言生成的基准和资源

本文提出 BanglaNLG，用于评估 Bangla 自然语言生成（NLG）模型的全面基准，并介绍了六个具有挑战性的条件文本生成任务和一个新的对话生成数据集。利用 27.5 GB 干净的 Bangla 数据集，预训练了 BanglaT5，一种面向 Bangla 的序列到序列 Transformer 语言模型。 BanglaT5 在所有任务中均达到最先进的性能，比多语言模型高出 9％的绝对收益和 32％的相对收益。我们将新的对话数据集和 BanglaT5 模型公开发布，以期推动未来的 Bangla NLG 研究。

May, 2022