近期,在自然语言处理方面的最新进展中,大型语言模型(LLM)得到了广泛应用,它们在上下文学习下表现出良好性能,甚至适用于未知的任务和语言。然而,它们在非洲语言上的性能尚不清楚。我们研究了三种广泛使用的大型语言模型(mT0,LLaMa 2 和 GPT-4)在 30 种非洲语言上的五个任务(新闻主题分类,情感分类,机器翻译,问答和命名实体识别)的表现。结果显示,所有的大型语言模型在非洲语言上的表现都低于水平,与英语等高资源语言相比,性能差距较大。我们发现,GPT-4 在分类任务上表现平均或令人印象深刻,但在机器翻译等生成任务上表现非常糟糕。令人惊讶的是,我们发现 mT0 在非洲语言上的跨语言问答表现最佳,超过了最先进的有监督模型(即,微调的 mT5)和 GPT-4 的表现。总体而言,由于 LLaMa 2 具有有限的多语言能力和以英语为中心的预训练语料库,因此其表现最差。总的来说,我们的研究结果呼吁确保非洲语言在大型语言模型中得到很好的代表,因为这些模型越来越受欢迎。
Nov, 2023
本研究探讨了如何使用预先训练的大型模型来创建 16 种非洲语言的低资源翻译系统,并发现对于转化到新领域和语言的最有效策略是在高质量翻译数据上微调预先训练好的大型模型。
May, 2022
本文通过研究对南非低资源语言的开放词汇语言模型的表现来评估不同变种的 N 元模型、前馈神经网络、循环神经网络和 Transformers 网络。这项研究有望为非洲语言的多语种和低资源语言建模开辟新的研究途径。
Apr, 2021
该研究使用公共数据集为 5 种南非语言训练了神经机器翻译模型,并提供了训练和评估模型的代码,旨在促进南非语言领域的未来研究。
Jun, 2019
本文介绍了多语种语言模型的工作原理及其在语言分析和生成方面的能力和局限性,并提供了关于开展大型和多语种语言模型研究、开发和部署时的建议。
Jun, 2023
应用多语言模型和自监督学习方法进行预训练和汇集可用数据来提高语音识别质量,为非洲语言建立大词汇量语音识别系统。
Aug, 2022
本文介绍了使用预训练和微调、提示或文本生成方法解决 NLP 任务的大型预训练基于 transformer 的语言模型,以及使用预训练语言模型生成数据进行训练或其他目的的方法,并讨论未来研究的限制和建议方向。
Nov, 2021
本研究利用多种多语种 XLM-R 模型和多样数据集,针对 AfriSenti-SemEval 2023 共享任务 12 的非洲语言情感分析模型进行了研究,最终在 Subtask B, Track 16: 多语言中获得了第三名的好成绩,但在某些语言表现不佳,表明需要建立更全面的数据集和模型来推进低资源非洲语言的情感分析研究。
May, 2023
本文介绍了最近关于预训练语言模型(PLMs)的新进展,重点讨论了大型语言模型的预训练、适应和调整、利用和容量评估四个方面,并讨论了未来研究的问题和方向。
Mar, 2023
通过 AfriSenti-SemEval 共享任务,评估了 14 种非洲语言情感分析中当前最先进的转换器模型,比较了用单一模型处理所有语言与为每种语言训练一个模型之间的性能。结果表明,对非洲语言专门开发的模型在所有任务上表现出色,对于一些样本较小的语言,一个更大的多语言模型在情感分类上可能比专门针对该语言的模型表现更好。
Oct, 2023