COLINGApr, 2024

波斯语大型语言模型基准测试:关注 ChatGPT 的初步研究

TL;DR本文探讨了大型语言模型(LLMs)在波斯语中的有效性。研究发现,虽然 ChatGPT 和其他 LLMs 在英语中表现出色,但它们在资源稀缺的语言上的效率仍然是一个悬而未决的问题。研究通过对各种波斯语任务进行全面的基准测试研究,重点评估了 GPT-3.5-turbo,同时还包括 GPT-4 和 OpenChat-3.5,以提供更全面的评估。研究结果显示,虽然 LLMs,特别是 GPT-4,在需要推理能力和对一般知识的广泛理解的任务中表现出色,但它们通常落后于针对特定任务进行细化调整的较小的预训练模型。此外,研究还观察到将测试集翻译成英语后输入 GPT-3.5 会改善其性能。这些结果突显了提升波斯语中 LLM 性能的重要潜力,这尤其值得注意,因为波斯语具有独特的字母和写作风格。