AlcLaM:阿拉伯方言语言模型
本文介绍了 Mawdoo3 AI 团队开发的预训练 BERT 模型的表现,以及该模型在 Nuanced Arabic Dialect Identification(NADI)共享任务的子任务 1 中获胜的过程和方法,并公开了 Multi-dialect-Arabic-BERT 模型的预训练语言模型组件,供其他研究人员使用。
Jul, 2020
这项研究介绍了一个由超过500GB的阿拉伯语言清理文本构成的语料库,旨在提高大规模语言模型的跨领域知识和下游泛化能力。此外,该语料库还被用于大型阿拉伯语言模型的训练,在对典型的NLP任务进行微调时,与mBERT相比表现出4.5%至8.5%的显着提升,据我所知,这是目前所收集的最大、最清洁、最具多样性的阿拉伯语语料库。
Jan, 2022
通过提供三种新的阿拉伯BERT模型(JABER、Char-JABER和SABER)和两种新的T5模型(AT5S和AT5B),并在包括ALUE在内的阿拉伯自然语言理解任务和ARGEN基准子集上实验性地对现有最先进模型的表现进行了系统性评估,得出了我们的模型在辨别性和生成性阿拉伯自然语言理解和生成任务方面具有显著优势,并达到了新的最先进性能。
May, 2022
在使用多语言语言模型进行低资源和高资源语言的任务中,阿拉伯语的方言差异引起了广泛关注。本文采用mBERT预训练和两种持续预训练方法,证明这些方法都可以帮助提高方言分类任务的性能。
Nov, 2022
本文介绍AraMUS——最大的预训练阿拉伯语言模型,基于529GB高质量的阿拉伯文本数据,该模型在通用语言处理任务中达到了最先进的性能。此外,与现有的阿拉伯语言模型相比,AraMUS表现出了优秀的少样本学习能力。
Jun, 2023
本研究评估了 GPT-3.5 和 GPT-4 模型在七个阿拉伯语自然语言处理任务上的性能,并发现 GPT-4 在其中五个任务上的性能优于 GPT-3.5,同时提供了一种新的 Python 接口用于轻松评估这些任务。
Jun, 2023
通过在规模庞大、高质量的阿拉伯语语料库上重新训练,我们显著提高了领先的阿拉伯编码器型BERT-based和编码器解码器型T5-based的性能,表现出同类模型的最新技术结果;我们的分析强烈暗示,预训练数据远远是性能的主要贡献因素,超越其他因素。
Jan, 2024
本研究旨在解决目前英语和拉丁语为主导的大型语言模型 (LLMs) 中,对于阿拉伯语母语的阿拉伯 LLMs 的缺乏问题。通过提出 ArabianGPT 系列模型,结合 AraNizer 分词工具和微调技术,有效改进了阿拉伯语自然语言处理的准确性和性能。
Feb, 2024
本文介绍了SaudiBERT,这是一个在沙特方言文本上进行预训练的单一方言阿拉伯语言模型。通过与其他六个多方言阿拉伯语言模型在11个评估数据集上的比较,分为情感分析和文本分类两组,SaudiBERT在这两组中分别达到了86.15%和87.86%的平均F1得分,显著优于其他比较模型。此外,我们还介绍了两个新的沙特方言语料库:沙特推特巨型语料库(STMC),其中包含超过1.41亿条沙特方言推文,以及沙特论坛语料库(SFC),其中包含从五个沙特在线论坛收集的15.2 GB文本。这两个语料库被用于预训练所提出的模型,它们是文献中报道的最大的沙特方言语料库。结果确认了SaudiBERT在理解和分析使用沙特方言表达的阿拉伯文本方面的有效性,在大多数任务中实现了最先进的结果,并超越了研究中包含的其他语言模型。SaudiBERT模型可以在https://huggingface.co/faisalq/SaudiBERT 公开获取。
May, 2024
本研究旨在解决阿拉伯语在大型语言模型中方言表现不足的问题,提出了七个合成数据集,并创建了AraDiCE基准,以评估阿拉伯方言和文化意识。研究发现,虽然特定阿拉伯模型在方言任务上表现优于多语言模型,但在方言识别和生成方面仍面临重大挑战,从而彰显了定制训练的重要性。
Sep, 2024