使用 ChatGPT 模型评估阿拉伯语 NLP 任务
本文介绍了一项大规模的 ChatGPT 在阿拉伯语自然语言处理方面的评估,结果显示,尽管该模型在英语基准测试上表现出色,但其在阿拉伯语数据集上的性能表现不如针对阿拉伯语进行优化的专用模型。
May, 2023
本文探讨了大型语言模型(LLMs)在波斯语中的有效性。研究发现,虽然 ChatGPT 和其他 LLMs 在英语中表现出色,但它们在资源稀缺的语言上的效率仍然是一个悬而未决的问题。研究通过对各种波斯语任务进行全面的基准测试研究,重点评估了 GPT-3.5-turbo,同时还包括 GPT-4 和 OpenChat-3.5,以提供更全面的评估。研究结果显示,虽然 LLMs,特别是 GPT-4,在需要推理能力和对一般知识的广泛理解的任务中表现出色,但它们通常落后于针对特定任务进行细化调整的较小的预训练模型。此外,研究还观察到将测试集翻译成英语后输入 GPT-3.5 会改善其性能。这些结果突显了提升波斯语中 LLM 性能的重要潜力,这尤其值得注意,因为波斯语具有独特的字母和写作风格。
Apr, 2024
综述了大型语言模型对阿拉伯语方言的机器翻译效能以及在翻译任务中与人类指令的对齐能力,发现大型语言模型在处理某些阿拉伯语方言时可能面临挑战,尤其是针对缺乏公开数据的阿尔及利亚和毛里塔尼亚方言,但对更普遍的方言表现令人满意,虽然偶尔落后于像 Google 翻译这样的商业系统。总体而言,现有的大型语言模型在包容性方面仍有待改进,仅具有有限的能力来满足不同社区之间的语言和文化复杂性需求。
Aug, 2023
该研究评估了在阿拉伯语中使用经过微调的 ChatGPT 模型作为个人医疗助手的潜力,并通过自动评估和人工评估证明它在医疗援助方面具有光明前景。
Dec, 2023
该论文研究了大型语言模型(LLMs)ChatGPT-3.5 和 GPT-4 在解决入门级编程任务中的表现,并根据表现得出了利用 LLMs 进行教学场景和评估格式的暗示。研究选取了来自免费网站 CodingBat 的 72 个针对初学者的 Python 任务,使用完整任务描述作为 LLMs 的输入,通过 CodingBat 的单元测试评估生成的回复。此外,还分析了文本解释和程序代码的普遍可用性。结果显示得分高,正确响应率为 94.4%至 95.8%,同时文本解释和程序代码的可用性可靠,从而为将 LLMs 纳入编程教育和评估中打开了新的途径。
Aug, 2023
本研究旨在解决目前英语和拉丁语为主导的大型语言模型 (LLMs) 中,对于阿拉伯语母语的阿拉伯 LLMs 的缺乏问题。通过提出 ArabianGPT 系列模型,结合 AraNizer 分词工具和微调技术,有效改进了阿拉伯语自然语言处理的准确性和性能。
Feb, 2024
本研究评估了多语言文本处理技术的热门系统 ChatGPT 在 37 种不同的语言中进行的 7 项不同任务的表现,揭示了其在不同 NLP 任务和语言方面的表现与其他模型相比较差,需要进一步的研究来发展更好的模型和了解多语言学习。
Apr, 2023
本文比较了 ChatGPT 在自然语言处理领域中,在机器翻译、文本摘要、问答和语言生成等方面的表现,并使用自由质量(SQ)分数与每个类别中的主要算法进行了比较。通过有效的验证策略,安全性和可大规模采用 LLM 的示例总结了该论文的观点和结果。
Mar, 2023
近期,将大型语言模型 fine-tuned 后用于人类指令的研究表明在各种英语自然语言处理任务上取得了显著的能力,但在语法错误纠正任务中,特别是在非英语语言中的应用仍有待深入探索。本文研究了 fine-tuned 后的语言模型在阿拉伯语语法错误纠正中的能力,该任务由于阿拉伯语的丰富形态而变得复杂。我们的研究结果表明,各种提示方法与(上下文中的)少样本学习相结合,具有明显的效果,GPT-4 在专家提示下的 F extsubscript {1} 分数可达到 65.49(比我们建立的基线高出约 5 个点),这凸显了语言模型在低资源环境中的潜力,为模型训练生成有用的合成数据提供了可行的方法。尽管取得了这些积极的结果,我们发现无论大小如何,fine-tuned 后的模型在性能上显著低于大小显著较小的完全 fine-tuned 模型,这种差异突显了语言模型改进的重要空间。受低资源机器翻译方法的启发,我们还开发了一种利用合成数据的方法,该方法在两个标准阿拉伯语基准测试上显著优于先前的模型。我们的工作在阿拉伯语语法错误纠正领域取得了新的最佳结果,分别达到了 2014 和 2015 年 QALB 数据集的 72.19% 和 73.26 的 F$_{1}$ 值。
Aug, 2023
本文探讨了为阿拉伯语开发本土化大型语言模型(LLM)的必要性和方法论,介绍了一种完整的解决方案,包括使用阿拉伯语文本进行进一步的预训练,使用阿拉伯语指令和阿拉伯语回复进行监督微调(SFT),以及使用对本土文化和价值观敏感的奖励模型进行强化学习和 AI 反馈(RLAIF)。通过全面的评估,证明了该模型 AceGPT 在多个基准测试中是领先的,并且在阿拉伯语相关的文化和价值观方面表现出色。
Sep, 2023