GPTAraEval:基于阿拉伯语 NLP 的 ChatGPT 全面评估
本研究评估了 GPT-3.5 和 GPT-4 模型在七个阿拉伯语自然语言处理任务上的性能,并发现 GPT-4 在其中五个任务上的性能优于 GPT-3.5,同时提供了一种新的 Python 接口用于轻松评估这些任务。
Jun, 2023
该研究评估了在阿拉伯语中使用经过微调的 ChatGPT 模型作为个人医疗助手的潜力,并通过自动评估和人工评估证明它在医疗援助方面具有光明前景。
Dec, 2023
本文通过评估 ChatGPT 在各种自然语言处理任务中的表现,旨在验证其优缺点,并为未来的 LLM 研究提供思路。作者发现 ChatGPT 能够完成多种任务,取得很好的表现,但仍有许多难题需要解决。
May, 2023
本研究评估了多语言文本处理技术的热门系统 ChatGPT 在 37 种不同的语言中进行的 7 项不同任务的表现,揭示了其在不同 NLP 任务和语言方面的表现与其他模型相比较差,需要进一步的研究来发展更好的模型和了解多语言学习。
Apr, 2023
综述了大型语言模型对阿拉伯语方言的机器翻译效能以及在翻译任务中与人类指令的对齐能力,发现大型语言模型在处理某些阿拉伯语方言时可能面临挑战,尤其是针对缺乏公开数据的阿尔及利亚和毛里塔尼亚方言,但对更普遍的方言表现令人满意,虽然偶尔落后于像 Google 翻译这样的商业系统。总体而言,现有的大型语言模型在包容性方面仍有待改进,仅具有有限的能力来满足不同社区之间的语言和文化复杂性需求。
Aug, 2023
对 ChatGPT 和 GPT-4 的语言能力、科学知识和伦理考虑进行全面评估的研究,包括现有评估方法的探讨和未来研究中对大型语言模型的评估建议。
Aug, 2023
尽管阿拉伯语作为一种全球语言的重要性日益增长,但是缺乏仅基于阿拉伯语数据进行预训练的语言模型。为了解决这一差距,我们介绍了两个新的基准,旨在评估阿拉伯语中模型的数学推理和语言理解能力。这些基准是从一种名为 Qiyas 考试的普遍用于沙特阿拉伯大学入学考试的综合能力测试 (GAT) 中提取的。为了验证目的,我们评估了 ChatGPT-3.5-trubo 和 ChatGPT-4 在我们的基准上的性能。我们的研究发现这些基准具有重大挑战,ChatGPT-4 在 Qiyas 基准的各种问题类型中的整体平均准确率为 64%,而 ChatGPT-3.5-trubo 在整体准确率上达到了 49%。我们相信这些基准的发布将为针对资源有限的阿拉伯语的未来模型的数学推理和语言理解能力的提升铺平道路。
Jun, 2024
本文探讨了大型语言模型(LLMs)在波斯语中的有效性。研究发现,虽然 ChatGPT 和其他 LLMs 在英语中表现出色,但它们在资源稀缺的语言上的效率仍然是一个悬而未决的问题。研究通过对各种波斯语任务进行全面的基准测试研究,重点评估了 GPT-3.5-turbo,同时还包括 GPT-4 和 OpenChat-3.5,以提供更全面的评估。研究结果显示,虽然 LLMs,特别是 GPT-4,在需要推理能力和对一般知识的广泛理解的任务中表现出色,但它们通常落后于针对特定任务进行细化调整的较小的预训练模型。此外,研究还观察到将测试集翻译成英语后输入 GPT-3.5 会改善其性能。这些结果突显了提升波斯语中 LLM 性能的重要潜力,这尤其值得注意,因为波斯语具有独特的字母和写作风格。
Apr, 2024
本研究旨在解决目前英语和拉丁语为主导的大型语言模型 (LLMs) 中,对于阿拉伯语母语的阿拉伯 LLMs 的缺乏问题。通过提出 ArabianGPT 系列模型,结合 AraNizer 分词工具和微调技术,有效改进了阿拉伯语自然语言处理的准确性和性能。
Feb, 2024
ChatGPT 作为一个问答系统,通过对其在提供的段落中提取回答的能力进行评估,发现它在生成模型方面表现出了实力,但在问题回答方面相对于特定任务模型表现较差,而提供上下文可以提高其性能,提问方式对其准确性有所影响,并且在提供的上下文中提供了无法从中获取答案的问题的回答,还存在答案幻觉的现象。
Dec, 2023