Jun, 2024

Qiyas 基准:在阿拉伯语中衡量 ChatGPT 的数学和语言理解能力

TL;DR尽管阿拉伯语作为一种全球语言的重要性日益增长,但是缺乏仅基于阿拉伯语数据进行预训练的语言模型。为了解决这一差距,我们介绍了两个新的基准,旨在评估阿拉伯语中模型的数学推理和语言理解能力。这些基准是从一种名为 Qiyas 考试的普遍用于沙特阿拉伯大学入学考试的综合能力测试 (GAT) 中提取的。为了验证目的,我们评估了 ChatGPT-3.5-trubo 和 ChatGPT-4 在我们的基准上的性能。我们的研究发现这些基准具有重大挑战,ChatGPT-4 在 Qiyas 基准的各种问题类型中的整体平均准确率为 64%,而 ChatGPT-3.5-trubo 在整体准确率上达到了 49%。我们相信这些基准的发布将为针对资源有限的阿拉伯语的未来模型的数学推理和语言理解能力的提升铺平道路。