Qiyas 基准：在阿拉伯语中衡量 ChatGPT 的数学和语言理解能力

Jun, 2024

Qiyas 基准：在阿拉伯语中衡量 ChatGPT 的数学和语言理解能力

The Qiyas Benchmark: Measuring ChatGPT Mathematical and Language Understanding in Arabic

Shahad Al-Khalifa, Hend Al-Khalifa

TL;DR尽管阿拉伯语作为一种全球语言的重要性日益增长，但是缺乏仅基于阿拉伯语数据进行预训练的语言模型。为了解决这一差距，我们介绍了两个新的基准，旨在评估阿拉伯语中模型的数学推理和语言理解能力。这些基准是从一种名为 Qiyas 考试的普遍用于沙特阿拉伯大学入学考试的综合能力测试 (GAT) 中提取的。为了验证目的，我们评估了 ChatGPT-3.5-trubo 和 ChatGPT-4 在我们的基准上的性能。我们的研究发现这些基准具有重大挑战，ChatGPT-4 在 Qiyas 基准的各种问题类型中的整体平均准确率为 64%，而 ChatGPT-3.5-trubo 在整体准确率上达到了 49%。我们相信这些基准的发布将为针对资源有限的阿拉伯语的未来模型的数学推理和语言理解能力的提升铺平道路。

Abstract

Despite the growing importance of Arabic as a global language, there is a notable lack of language models pre-trained exclusively on Arabic data. This shortage has led to limited benchmarks available for assessing language model performance in Arabic. To address this gap, we introduce

arabic language language models benchmark mathematical reasoning language understanding

发现论文，激发创造

使用 ChatGPT 模型评估阿拉伯语 NLP 任务

本研究评估了 GPT-3.5 和 GPT-4 模型在七个阿拉伯语自然语言处理任务上的性能，并发现 GPT-4 在其中五个任务上的性能优于 GPT-3.5，同时提供了一种新的 Python 接口用于轻松评估这些任务。

Jun, 2023

GPTAraEval：基于阿拉伯语 NLP 的 ChatGPT 全面评估

本文介绍了一项大规模的 ChatGPT 在阿拉伯语自然语言处理方面的评估，结果显示，尽管该模型在英语基准测试上表现出色，但其在阿拉伯语数据集上的性能表现不如针对阿拉伯语进行优化的专用模型。

May, 2023

波斯语大型语言模型基准测试：关注 ChatGPT 的初步研究

本文探讨了大型语言模型（LLMs）在波斯语中的有效性。研究发现，虽然 ChatGPT 和其他 LLMs 在英语中表现出色，但它们在资源稀缺的语言上的效率仍然是一个悬而未决的问题。研究通过对各种波斯语任务进行全面的基准测试研究，重点评估了 GPT-3.5-turbo，同时还包括 GPT-4 和 OpenChat-3.5，以提供更全面的评估。研究结果显示，虽然 LLMs，特别是 GPT-4，在需要推理能力和对一般知识的广泛理解的任务中表现出色，但它们通常落后于针对特定任务进行细化调整的较小的预训练模型。此外，研究还观察到将测试集翻译成英语后输入 GPT-3.5 会改善其性能。这些结果突显了提升波斯语中 LLM 性能的重要潜力，这尤其值得注意，因为波斯语具有独特的字母和写作风格。

Apr, 2024

跨语言评估 ChatGPT 的数学能力

本文评估了 ChatGPT 在印地语、古吉拉特语和马拉地语等不同语言中的数学能力。我们探索了 ChatGPT 在多种自然语言中解决数学问题的能力，并使用思维链提示来确定它是否像在英语中那样增加了回答的准确性，并提供了当前的限制。

May, 2024

ChatGPT 的数学能力

本研究使用 GHOSTS 数据集评估了 ChatGPT 的数学能力和其他训练过数学语料库的模型相比，发现其数学能力显著低于普通数学研究生，并强调 GHOSTS 数据集的重要性以及未来大型语言模型在高级数学理解方面的比较研究。

Jan, 2023

ChatGPT 能成为您的个人医疗助手吗？

该研究评估了在阿拉伯语中使用经过微调的 ChatGPT 模型作为个人医疗助手的潜力，并通过自动评估和人工评估证明它在医疗援助方面具有光明前景。

Dec, 2023

Bard 和 ChatGPT 在十种阿拉伯语方言机器翻译中的评估

综述了大型语言模型对阿拉伯语方言的机器翻译效能以及在翻译任务中与人类指令的对齐能力，发现大型语言模型在处理某些阿拉伯语方言时可能面临挑战，尤其是针对缺乏公开数据的阿尔及利亚和毛里塔尼亚方言，但对更普遍的方言表现令人满意，虽然偶尔落后于像 Google 翻译这样的商业系统。总体而言，现有的大型语言模型在包容性方面仍有待改进，仅具有有限的能力来满足不同社区之间的语言和文化复杂性需求。

Aug, 2023

AceGPT，在阿拉伯语中本地化大型语言模型

本文探讨了为阿拉伯语开发本土化大型语言模型（LLM）的必要性和方法论，介绍了一种完整的解决方案，包括使用阿拉伯语文本进行进一步的预训练，使用阿拉伯语指令和阿拉伯语回复进行监督微调（SFT），以及使用对本土文化和价值观敏感的奖励模型进行强化学习和 AI 反馈（RLAIF）。通过全面的评估，证明了该模型 AceGPT 在多个基准测试中是领先的，并且在阿拉伯语相关的文化和价值观方面表现出色。

Sep, 2023

ChatGPT 在基准数据集上的系统研究和综合评估

本文通过评估 ChatGPT 在各种自然语言处理任务中的表现，旨在验证其优缺点，并为未来的 LLM 研究提供思路。作者发现 ChatGPT 能够完成多种任务，取得很好的表现，但仍有许多难题需要解决。

May, 2023

阿拉伯 GPT：基于阿拉伯语的大型语言模型

本研究旨在解决目前英语和拉丁语为主导的大型语言模型 (LLMs) 中，对于阿拉伯语母语的阿拉伯 LLMs 的缺乏问题。通过提出 ArabianGPT 系列模型，结合 AraNizer 分词工具和微调技术，有效改进了阿拉伯语自然语言处理的准确性和性能。

Feb, 2024