大型语言模型下的阿拉伯语自动故事生成
这项研究介绍了一个由超过500GB的阿拉伯语言清理文本构成的语料库,旨在提高大规模语言模型的跨领域知识和下游泛化能力。此外,该语料库还被用于大型阿拉伯语言模型的训练,在对典型的NLP任务进行微调时,与mBERT相比表现出4.5%至8.5%的显着提升,据我所知,这是目前所收集的最大、最清洁、最具多样性的阿拉伯语语料库。
Jan, 2022
通过提供三种新的阿拉伯BERT模型(JABER、Char-JABER和SABER)和两种新的T5模型(AT5S和AT5B),并在包括ALUE在内的阿拉伯自然语言理解任务和ARGEN基准子集上实验性地对现有最先进模型的表现进行了系统性评估,得出了我们的模型在辨别性和生成性阿拉伯自然语言理解和生成任务方面具有显著优势,并达到了新的最先进性能。
May, 2022
该论文介绍了一个用于阿拉伯语的强大的自回归Transformer语言模型套件JASMINE,用于zero和few-shot学习和广泛的NLP任务基准测试,旨在填补该领域在不同语言环境和文化中的问题和缺陷以及在这些模型中潜在的社会偏见、伤害和毒性方面的新基准测试。
Dec, 2022
本研究评估了 GPT-3.5 和 GPT-4 模型在七个阿拉伯语自然语言处理任务上的性能,并发现 GPT-4 在其中五个任务上的性能优于 GPT-3.5,同时提供了一种新的 Python 接口用于轻松评估这些任务。
Jun, 2023
综述了大型语言模型对阿拉伯语方言的机器翻译效能以及在翻译任务中与人类指令的对齐能力,发现大型语言模型在处理某些阿拉伯语方言时可能面临挑战,尤其是针对缺乏公开数据的阿尔及利亚和毛里塔尼亚方言,但对更普遍的方言表现令人满意,虽然偶尔落后于像Google翻译这样的商业系统。总体而言,现有的大型语言模型在包容性方面仍有待改进,仅具有有限的能力来满足不同社区之间的语言和文化复杂性需求。
Aug, 2023
通过在规模庞大、高质量的阿拉伯语语料库上重新训练,我们显著提高了领先的阿拉伯编码器型BERT-based和编码器解码器型T5-based的性能,表现出同类模型的最新技术结果;我们的分析强烈暗示,预训练数据远远是性能的主要贡献因素,超越其他因素。
Jan, 2024
本研究旨在解决目前英语和拉丁语为主导的大型语言模型 (LLMs) 中,对于阿拉伯语母语的阿拉伯 LLMs 的缺乏问题。通过提出 ArabianGPT 系列模型,结合 AraNizer 分词工具和微调技术,有效改进了阿拉伯语自然语言处理的准确性和性能。
Feb, 2024
利用机器翻译从英语训练LLMs在低资源语言中通常会带来翻译的挑战,然而我们研究了机器翻译和合成数据在训练语言模型中的作用,并通过案例研究展示了改进的效果。
May, 2024
我们通过创建阿拉伯语指令数据集,对两个开源模型进行微调并在多个下游任务上进行评估,最终达到了阿拉伯语自然语言处理基准的最新性能水平。
Jul, 2024
本研究解决了阿拉伯语提示生成的缺乏问题,提出了两种经济快速的创建方法:一种是通过翻译现有的英语提示数据集,另一种是在现有阿拉伯语NLP数据集的基础上生成自然语言提示。研究发现,通过这些方法生成的6700多万个阿拉伯语提示能够显著提高7亿参数模型在处理阿拉伯语提示时的表现。
Aug, 2024