IrokoBench:大型语言模型时代的非洲语言新基准
我们提出了 AfroMT,这是一个针对非洲 8 种使用广泛、标准、干净和可重现的机器翻译基准,并开发了诊断系统的一套分析工具,探讨了低资源预训练的可能性,提出了两种基于数据增强的策略,并展示了在 11 种语言预训练的情况下,数据受限情况下比跨语言转移基线提高了 12 BLEU 分数的结果。
Sep, 2021
该研究论文介绍了关于自然语言处理在非洲语言的应用的研究进展,指出非洲语言的自然语言处理技术和工具存在落后的现象。在此背景下,作者提出了建立一个 Igbo 语言的机器翻译基准数据集的思路,从而提升非洲语言的自然语言技术水平。
Apr, 2020
研究了最近神经机器翻译 (NMT) 在英语和五种非洲低资源语言 (LRL) 对之间的效果,并表明多语言模型 (multilingual approach) 在某些翻译方向上有 +5 分数的提升。同时,提供标准的实验数据和测试集以供未来的研究使用。
Mar, 2020
近期,在自然语言处理方面的最新进展中,大型语言模型(LLM)得到了广泛应用,它们在上下文学习下表现出良好性能,甚至适用于未知的任务和语言。然而,它们在非洲语言上的性能尚不清楚。我们研究了三种广泛使用的大型语言模型(mT0,LLaMa 2 和 GPT-4)在 30 种非洲语言上的五个任务(新闻主题分类,情感分类,机器翻译,问答和命名实体识别)的表现。结果显示,所有的大型语言模型在非洲语言上的表现都低于水平,与英语等高资源语言相比,性能差距较大。我们发现,GPT-4 在分类任务上表现平均或令人印象深刻,但在机器翻译等生成任务上表现非常糟糕。令人惊讶的是,我们发现 mT0 在非洲语言上的跨语言问答表现最佳,超过了最先进的有监督模型(即,微调的 mT5)和 GPT-4 的表现。总体而言,由于 LLaMa 2 具有有限的多语言能力和以英语为中心的预训练语料库,因此其表现最差。总的来说,我们的研究结果呼吁确保非洲语言在大型语言模型中得到很好的代表,因为这些模型越来越受欢迎。
Nov, 2023
EthioLLM introduces multilingual large language models for five Ethiopian languages and English, along with a new benchmark dataset for downstream NLP tasks, evaluating their performance and making them available through an open-source repository.
Mar, 2024
本文通过研究对南非低资源语言的开放词汇语言模型的表现来评估不同变种的 N 元模型、前馈神经网络、循环神经网络和 Transformers 网络。这项研究有望为非洲语言的多语种和低资源语言建模开辟新的研究途径。
Apr, 2021
该论文提出了 MasakhaNEWS 数据集来支持在 16 种非洲语言上的新闻主题分类研究,并探索了多种机器学习方法以支持零样本和少样本学习。通过使用 ChatGPT 等技术实现了在低资源非洲语言中进行新闻主题分类任务,能够在零样本情况下实现平均 F1 得分 70,利用 PET 方法,10 个样本即可实现较好的效果。
Apr, 2023
通过比较零 - shot 学习、迁移学习和多语言学习在三种班图语(Shona、IsiXhosa 和 IsiZulu)和英语翻译中的表现,我们展示了语言相似性对英语到 isiZulu 的迁移学习性能的重要性,并证明多语言学习在我们的数据集上优于迁移学习和零 - shot 学习,其最佳模型相对于基线英语到 isiZulu 模型的 BLEU 得分提高了 9.9、6.1 和 2.0,同时超过了之前的最佳表现。
Apr, 2021
研究了不同数量可用资源的情况下,对三种非洲语言 Hausa,isiXhosa 和 Yoruba 进行 NER 和主题分类的表现趋势,并通过远距离监督和迁移学习等方法,使用少量的标注数据达到与基线相同的性能,揭示了低资源学习中存在的挑战和机会。
Oct, 2020