Nov, 2023

大型语言模型在非洲语言上的表现如何?

TL;DR近期,在自然语言处理方面的最新进展中,大型语言模型(LLM)得到了广泛应用,它们在上下文学习下表现出良好性能,甚至适用于未知的任务和语言。然而,它们在非洲语言上的性能尚不清楚。我们研究了三种广泛使用的大型语言模型(mT0,LLaMa 2 和 GPT-4)在 30 种非洲语言上的五个任务(新闻主题分类,情感分类,机器翻译,问答和命名实体识别)的表现。结果显示,所有的大型语言模型在非洲语言上的表现都低于水平,与英语等高资源语言相比,性能差距较大。我们发现,GPT-4 在分类任务上表现平均或令人印象深刻,但在机器翻译等生成任务上表现非常糟糕。令人惊讶的是,我们发现 mT0 在非洲语言上的跨语言问答表现最佳,超过了最先进的有监督模型(即,微调的 mT5)和 GPT-4 的表现。总体而言,由于 LLaMa 2 具有有限的多语言能力和以英语为中心的预训练语料库,因此其表现最差。总的来说,我们的研究结果呼吁确保非洲语言在大型语言模型中得到很好的代表,因为这些模型越来越受欢迎。