May, 2024

SaudiBERT: 一种基于沙特方言语料库预训练的大型语言模型

TL;DR本文介绍了 SaudiBERT,这是一个在沙特方言文本上进行预训练的单一方言阿拉伯语言模型。通过与其他六个多方言阿拉伯语言模型在 11 个评估数据集上的比较,分为情感分析和文本分类两组,SaudiBERT 在这两组中分别达到了 86.15% 和 87.86% 的平均 F1 得分,显著优于其他比较模型。此外,我们还介绍了两个新的沙特方言语料库:沙特推特巨型语料库(STMC),其中包含超过 1.41 亿条沙特方言推文,以及沙特论坛语料库(SFC),其中包含从五个沙特在线论坛收集的 15.2 GB 文本。这两个语料库被用于预训练所提出的模型,它们是文献中报道的最大的沙特方言语料库。结果确认了 SaudiBERT 在理解和分析使用沙特方言表达的阿拉伯文本方面的有效性,在大多数任务中实现了最先进的结果,并超越了研究中包含的其他语言模型。SaudiBERT 模型可以在 https://huggingface.co/faisalq/SaudiBERT 公开获取。