AlcLaM：阿拉伯方言语言模型

Jul, 2024

AlcLaM: Arabic Dialectal Language Model

Murtadha Ahmed, Saghir Alfasly, Bo Wen, Jamaal Qasem, Mohammed Ahmed...

TL;DR预训练语言模型（PLMs）在现代自然语言处理（NLP）系统中起着重要作用。本文构建了一个包含从社交媒体平台收集的340万句的阿拉伯方言语料库，利用该语料库扩展词汇并从头开始重新训练了基于BERT的模型，命名为AlcLaM。尽管训练数据较少，AlcLaM在多个阿拉伯NLP任务中展现出优越性能。

Abstract

pre-trained language models (PLMs) are integral to many modern natural language processing (NLP) systems. Although multilingual models cover a wide range of languages, they often grapple with challenges like high inference costs and a lack of diverse non-English training data. Arabic-s

发现论文，激发创造

为国家级方言识别创建的多方言阿拉伯BERT

本文介绍了 Mawdoo3 AI 团队开发的预训练 BERT 模型的表现，以及该模型在 Nuanced Arabic Dialect Identification（NADI）共享任务的子任务 1 中获胜的过程和方法，并公开了 Multi-dialect-Arabic-BERT 模型的预训练语言模型组件，供其他研究人员使用。

Jul, 2020

面向语言建模的大规模多样化阿拉伯语语料库

这项研究介绍了一个由超过500GB的阿拉伯语言清理文本构成的语料库，旨在提高大规模语言模型的跨领域知识和下游泛化能力。此外，该语料库还被用于大型阿拉伯语言模型的训练，在对典型的NLP任务进行微调时，与mBERT相比表现出4.5%至8.5%的显着提升，据我所知，这是目前所收集的最大、最清洁、最具多样性的阿拉伯语语料库。

Jan, 2022

重新审视预训练语言模型及其在阿拉伯语自然语言理解中的评估

通过提供三种新的阿拉伯BERT模型(JABER、Char-JABER和SABER)和两种新的T5模型(AT5S和AT5B)，并在包括ALUE在内的阿拉伯自然语言理解任务和ARGEN基准子集上实验性地对现有最先进模型的表现进行了系统性评估，得出了我们的模型在辨别性和生成性阿拉伯自然语言理解和生成任务方面具有显著优势，并达到了新的最先进性能。

May, 2022

面向阿拉伯方言变异鲁棒性的参数和数据高效连续预训练

在使用多语言语言模型进行低资源和高资源语言的任务中，阿拉伯语的方言差异引起了广泛关注。本文采用mBERT预训练和两种持续预训练方法，证明这些方法都可以帮助提高方言分类任务的性能。

Nov, 2022

AraMUS: 将数据和模型规模的极限推向阿拉伯语自然语言处理

本文介绍AraMUS——最大的预训练阿拉伯语言模型，基于529GB高质量的阿拉伯文本数据，该模型在通用语言处理任务中达到了最先进的性能。此外，与现有的阿拉伯语言模型相比，AraMUS表现出了优秀的少样本学习能力。

Jun, 2023

使用ChatGPT模型评估阿拉伯语NLP任务

本研究评估了 GPT-3.5 和 GPT-4 模型在七个阿拉伯语自然语言处理任务上的性能，并发现 GPT-4 在其中五个任务上的性能优于 GPT-3.5，同时提供了一种新的 Python 接口用于轻松评估这些任务。

Jun, 2023

关于阿拉伯语语言模型预训练中数据规模的重要性

通过在规模庞大、高质量的阿拉伯语语料库上重新训练，我们显著提高了领先的阿拉伯编码器型BERT-based和编码器解码器型T5-based的性能，表现出同类模型的最新技术结果；我们的分析强烈暗示，预训练数据远远是性能的主要贡献因素，超越其他因素。

Jan, 2024

阿拉伯GPT：基于阿拉伯语的大型语言模型

本研究旨在解决目前英语和拉丁语为主导的大型语言模型 (LLMs) 中，对于阿拉伯语母语的阿拉伯 LLMs 的缺乏问题。通过提出 ArabianGPT 系列模型，结合 AraNizer 分词工具和微调技术，有效改进了阿拉伯语自然语言处理的准确性和性能。

Feb, 2024

SaudiBERT: 一种基于沙特方言语料库预训练的大型语言模型

本文介绍了SaudiBERT，这是一个在沙特方言文本上进行预训练的单一方言阿拉伯语言模型。通过与其他六个多方言阿拉伯语言模型在11个评估数据集上的比较，分为情感分析和文本分类两组，SaudiBERT在这两组中分别达到了86.15%和87.86%的平均F1得分，显著优于其他比较模型。此外，我们还介绍了两个新的沙特方言语料库：沙特推特巨型语料库（STMC），其中包含超过1.41亿条沙特方言推文，以及沙特论坛语料库（SFC），其中包含从五个沙特在线论坛收集的15.2 GB文本。这两个语料库被用于预训练所提出的模型，它们是文献中报道的最大的沙特方言语料库。结果确认了SaudiBERT在理解和分析使用沙特方言表达的阿拉伯文本方面的有效性，在大多数任务中实现了最先进的结果，并超越了研究中包含的其他语言模型。SaudiBERT模型可以在https://huggingface.co/faisalq/SaudiBERT 公开获取。

May, 2024

AraDiCE：大型语言模型的方言和文化能力基准

本研究旨在解决阿拉伯语在大型语言模型中方言表现不足的问题，提出了七个合成数据集，并创建了AraDiCE基准，以评估阿拉伯方言和文化意识。研究发现，虽然特定阿拉伯模型在方言任务上表现优于多语言模型，但在方言识别和生成方面仍面临重大挑战，从而彰显了定制训练的重要性。

Sep, 2024