AceGPT，在阿拉伯语中本地化大型语言模型

Sep, 2023

AceGPT，在阿拉伯语中本地化大型语言模型

AceGPT, Localizing Large Language Models in Arabic

Huang Huang, Fei Yu, Jianqing Zhu, Xuening Sun, Hao Cheng...

TL;DR本文探讨了为阿拉伯语开发本土化大型语言模型（LLM）的必要性和方法论，介绍了一种完整的解决方案，包括使用阿拉伯语文本进行进一步的预训练，使用阿拉伯语指令和阿拉伯语回复进行监督微调（SFT），以及使用对本土文化和价值观敏感的奖励模型进行强化学习和 AI 反馈（RLAIF）。通过全面的评估，证明了该模型 AceGPT 在多个基准测试中是领先的，并且在阿拉伯语相关的文化和价值观方面表现出色。

Abstract

This paper explores the imperative need and methodology for developing a localized Large Language Model (LLM) tailored for arabic, a language with unique cultural characteristics that are not adequately addressed by current mainstream models like ChatGPT. Key concerns additionally aris

large language model (llm)arabic culturally aware value alignment acegpt

发现论文，激发创造

阿拉伯 GPT：基于阿拉伯语的大型语言模型

本研究旨在解决目前英语和拉丁语为主导的大型语言模型 (LLMs) 中，对于阿拉伯语母语的阿拉伯 LLMs 的缺乏问题。通过提出 ArabianGPT 系列模型，结合 AraNizer 分词工具和微调技术，有效改进了阿拉伯语自然语言处理的准确性和性能。

Feb, 2024

使用 ChatGPT 模型评估阿拉伯语 NLP 任务

本研究评估了 GPT-3.5 和 GPT-4 模型在七个阿拉伯语自然语言处理任务上的性能，并发现 GPT-4 在其中五个任务上的性能优于 GPT-3.5，同时提供了一种新的 Python 接口用于轻松评估这些任务。

Jun, 2023

ChatGPT 对阿拉伯语语法错误修正

近期，将大型语言模型 fine-tuned 后用于人类指令的研究表明在各种英语自然语言处理任务上取得了显著的能力，但在语法错误纠正任务中，特别是在非英语语言中的应用仍有待深入探索。本文研究了 fine-tuned 后的语言模型在阿拉伯语语法错误纠正中的能力，该任务由于阿拉伯语的丰富形态而变得复杂。我们的研究结果表明，各种提示方法与（上下文中的）少样本学习相结合，具有明显的效果，GPT-4 在专家提示下的 F extsubscript {1} 分数可达到 65.49（比我们建立的基线高出约 5 个点），这凸显了语言模型在低资源环境中的潜力，为模型训练生成有用的合成数据提供了可行的方法。尽管取得了这些积极的结果，我们发现无论大小如何，fine-tuned 后的模型在性能上显著低于大小显著较小的完全 fine-tuned 模型，这种差异突显了语言模型改进的重要空间。受低资源机器翻译方法的启发，我们还开发了一种利用合成数据的方法，该方法在两个标准阿拉伯语基准测试上显著优于先前的模型。我们的工作在阿拉伯语语法错误纠正领域取得了新的最佳结果，分别达到了 2014 和 2015 年 QALB 数据集的 72.19% 和 73.26 的 F$_{1}$ 值。

Aug, 2023

AcademicGPT：学术研究的赋能

AcademicGPT 是一个专为学术研究而设计的模型，通过从学术论文、论文、某些学术领域内容、高质量的中文数据等中进行持续训练，展示了其从广泛知识能力、中文能力到学术能力的各项实用能力和多个领域特定的应用。

Nov, 2023

波斯语大型语言模型基准测试：关注 ChatGPT 的初步研究

本文探讨了大型语言模型（LLMs）在波斯语中的有效性。研究发现，虽然 ChatGPT 和其他 LLMs 在英语中表现出色，但它们在资源稀缺的语言上的效率仍然是一个悬而未决的问题。研究通过对各种波斯语任务进行全面的基准测试研究，重点评估了 GPT-3.5-turbo，同时还包括 GPT-4 和 OpenChat-3.5，以提供更全面的评估。研究结果显示，虽然 LLMs，特别是 GPT-4，在需要推理能力和对一般知识的广泛理解的任务中表现出色，但它们通常落后于针对特定任务进行细化调整的较小的预训练模型。此外，研究还观察到将测试集翻译成英语后输入 GPT-3.5 会改善其性能。这些结果突显了提升波斯语中 LLM 性能的重要潜力，这尤其值得注意，因为波斯语具有独特的字母和写作风格。

Apr, 2024

GPTAraEval：基于阿拉伯语 NLP 的 ChatGPT 全面评估

本文介绍了一项大规模的 ChatGPT 在阿拉伯语自然语言处理方面的评估，结果显示，尽管该模型在英语基准测试上表现出色，但其在阿拉伯语数据集上的性能表现不如针对阿拉伯语进行优化的专用模型。

May, 2023

Bard 和 ChatGPT 在十种阿拉伯语方言机器翻译中的评估

综述了大型语言模型对阿拉伯语方言的机器翻译效能以及在翻译任务中与人类指令的对齐能力，发现大型语言模型在处理某些阿拉伯语方言时可能面临挑战，尤其是针对缺乏公开数据的阿尔及利亚和毛里塔尼亚方言，但对更普遍的方言表现令人满意，虽然偶尔落后于像 Google 翻译这样的商业系统。总体而言，现有的大型语言模型在包容性方面仍有待改进，仅具有有限的能力来满足不同社区之间的语言和文化复杂性需求。

Aug, 2023

基于大型语言模型的阿拉伯法律裁决预测

在阿拉伯法律分析领域中，我们的研究通过使用现有最先进的大型语言模型，全面预测了一批基于商业法庭真实案例的阿拉伯法院判决。通过评估不同预训练模型和训练方法的性能，并采用不同的评估指标，我们发现基于 GPT-3.5 的模型在所有模型中表现最佳，超过专门针对阿拉伯文的 JAIS 模型平均得分的 50%。同时，我们还发现大语言模型在法院判决预测中的性能评估除了人工评估之外的其他指标都是不一致且不可靠的。本研究为未来的研究奠定了基础，弥合计算语言学与阿拉伯法律分析之间的差距。

Oct, 2023

ModelGPT: 发挥 LLM 的能力进行定制模型生成

通过使用 Large Language Models (LLMs)，我们提出了 ModelGPT 框架，以满足用户的特定需求，并以更快的速度生成定制化的 AI 模型，以实现更加便利和用户友好的人工智能模型。

Feb, 2024

超越英语：评估用于阿拉伯文语法错误纠正的 LLMs

对于阿拉伯语的语法错误纠正任务，研究发现使用各种提示方法和少量样本学习的指令微调大型语言模型具有显著的效果，但是无论规模大小，指令微调模型的性能仍然不及完全微调的模型，此差距指出了语言模型改进的空间。同时，借鉴低资源机器翻译方法，利用合成数据也能显著提升阿拉伯语语法错误纠正的性能，在两个标准阿拉伯语数据集上创造了新的最佳结果，分别达到 73.29 和 73.26 的 F1 分数，相比于同行评审发表的基准模型。

Dec, 2023