SaudiBERT: 一种基于沙特方言语料库预训练的大型语言模型

May, 2024

SaudiBERT: 一种基于沙特方言语料库预训练的大型语言模型

SaudiBERT: A Large Language Model Pretrained on Saudi Dialect Corpora

Faisal Qarah

TL;DR本文介绍了 SaudiBERT，这是一个在沙特方言文本上进行预训练的单一方言阿拉伯语言模型。通过与其他六个多方言阿拉伯语言模型在 11 个评估数据集上的比较，分为情感分析和文本分类两组，SaudiBERT 在这两组中分别达到了 86.15% 和 87.86% 的平均 F1 得分，显著优于其他比较模型。此外，我们还介绍了两个新的沙特方言语料库：沙特推特巨型语料库（STMC），其中包含超过 1.41 亿条沙特方言推文，以及沙特论坛语料库（SFC），其中包含从五个沙特在线论坛收集的 15.2 GB 文本。这两个语料库被用于预训练所提出的模型，它们是文献中报道的最大的沙特方言语料库。结果确认了 SaudiBERT 在理解和分析使用沙特方言表达的阿拉伯文本方面的有效性，在大多数任务中实现了最先进的结果，并超越了研究中包含的其他语言模型。SaudiBERT 模型可以在 https://huggingface.co/faisalq/SaudiBERT 公开获取。

Abstract

In this paper, we introduce saudibert, a monodialect arabic language model pretrained exclusively on saudi dialectal text. To demonstrate

saudibert arabic language model saudi dialectal text sentiment analysis text classification

发现论文，激发创造

AraBERT：基于 Transformer 的阿拉伯语语言理解模型

使用语言特定的 BERT 模型预训练，构建了 AraBERT 模型，以在阿拉伯语 NLP 任务方面实现最先进的表现。

Feb, 2020

为国家级方言识别创建的多方言阿拉伯 BERT

本文介绍了 Mawdoo3 AI 团队开发的预训练 BERT 模型的表现，以及该模型在 Nuanced Arabic Dialect Identification（NADI）共享任务的子任务 1 中获胜的过程和方法，并公开了 Multi-dialect-Arabic-BERT 模型的预训练语言模型组件，供其他研究人员使用。

Jul, 2020

面向阿拉伯方言变异鲁棒性的参数和数据高效连续预训练

在使用多语言语言模型进行低资源和高资源语言的任务中，阿拉伯语的方言差异引起了广泛关注。本文采用 mBERT 预训练和两种持续预训练方法，证明这些方法都可以帮助提高方言分类任务的性能。

Nov, 2022

JABER 和 SABER：初级和高级阿拉伯 BERT

本文介绍了 JABER 和 SABER 代码库，提供了分别面向初学者和高阶研究者的两种预训练语言模型。我们的实验证明，在 ARABIC NLU 任务中，与预训练的 ARABIC BERT 模型相比，基于 JABER 和 SABER 的语言特定预训练模型能够实现最先进的性能。

Dec, 2021

使用预训练语言模型进行阿拉伯语及其方言的形态句法标注

该研究利用预训练转换器语言模型对不同形式的阿拉伯语进行形态句法标记，优于现有系统，在不同区域的阿拉伯语可获得显著改进，特别是在资源匮乏的情况下，利用其他高资源方言的数据进行微调，以及使用高质量的形态分析器作为外部语言资源是有益的。

Oct, 2021

基于阿拉伯语推文的预训练 BERT：实践考虑

本研究使用不同规模的训练集、正式和非正式阿拉伯语以及不同的语言预处理方式对 BERT 进行预训练，旨在支持阿拉伯方言和社交媒体。实验证实了数据多样性与语言感知分词的核心作用，也证明了更多的数据或更多的训练步骤并不能保证更好的模型，最终得到的 QARiB 模型在一些下游任务中取得了最新的最佳结果。

Feb, 2021

ParsBERT：基于 Transformer 的波斯语语言理解模型

本文提出了一种用于波斯语的单语 BERT 模型（ParsBERT），并采用庞大的数据集进行预训练和各种自然语言处理任务，证明该模型相对于其他结构和多语言模型具有更好的性能。

May, 2020

AraPoemBERT：用于阿拉伯诗歌分析的预训练语言模型

介绍了 AraPoemBERT，这是一个在阿拉伯诗歌文本上进行预训练的阿拉伯语言模型，通过在多个与阿拉伯诗歌相关的 NLP 任务上展示其有效性，该模型在大多数下游任务中表现出色，取得了最新成果的结果。

Mar, 2024

解释阿拉伯语 Transformer 模型

本研究探究了基于不同阿拉伯语言方言预训练模型的内部表示，并使用三种内在任务对这些模型进行了层和神经元分析，包括两种基于 MSA 的形态标注任务和一种方言识别任务。研究发现，单词形态是在较低和中间层中学习的；方言识别需要更多的知识，因此即使在最终层中也需要保留；尽管词汇有很大的重叠，基于 MSA 的模型无法捕捉阿拉伯语方言的细微差别，而嵌入层中的神经元是多义的，而中间层中的神经元则专门用于特定的属性。

Jan, 2022

AraLegal-BERT：针对阿拉伯语法律文本的预训练语言模型

本文介紹了 AraLegal-BERT 模型，評估其對於阿拉伯法律文件的表現。結果證明該模型在自然語言理解 (NLU) 任務上比一般的 BERT 及原始版本表現更為準確。

Oct, 2022