为国家级方言识别创建的多方言阿拉伯 BERT

COLINGJul, 2020

为国家级方言识别创建的多方言阿拉伯 BERT

Multi-Dialect Arabic BERT for Country-Level Dialect Identification

Bashar Talafha, Mohammad Ali, Muhy Eddin Za'ter, Haitham Seelawi, Ibraheem Tuffaha...

TL;DR本文介绍了 Mawdoo3 AI 团队开发的预训练 BERT 模型的表现，以及该模型在 Nuanced Arabic Dialect Identification（NADI）共享任务的子任务 1 中获胜的过程和方法，并公开了 Multi-dialect-Arabic-BERT 模型的预训练语言模型组件，供其他研究人员使用。

Abstract

arabic dialect identification is a complex problem for a number of inherent properties of the language itself. In this paper, we present the experiments conducted, and the models developed by our competing team, Mawdoo3 AI, along the way to achieving our winning solution to subtask 1 o

arabic dialect identification nadi shared task pre-trained bert model ensemble multi-dialect-arabic-bert

发现论文，激发创造

2023 年 NADI 共享任务中的 Mavericks：使用基于 Transformer 的方法解开方言辨识中的区域细微差别

该研究提出了对 “Nuanced Arabic Dialect Identification (NADI) Shared Task 2023” 的方法，着重介绍了处理与国家级方言识别相关的子任务 1 的方法。该研究利用使用涵盖 18 种方言的 Twitter 数据集（TWT-2023）进行多类别分类问题的研究，采用基于 transformer 的预训练模型进行国家级方言识别，并利用集成方法提高了系统的性能，在测试数据集中取得了 76.65 的 F1 得分（排名第 11 位）。

Nov, 2023

基于 MARBERT 的阿拉伯方言标识改进：参加 NADI 2021 共享任务

本研究用 MARBERT 建立了一个 ensemble 模型来对短 DA 和 MSA 阿拉伯口语进行地理起源的识别，并在 4 个子任务上展现了最新的研究成果，进一步提高了之前工作 F1 评分约 7.63%。

Mar, 2021

野外阿拉伯方言识别

用 QADI 建立了一个包含来自 18 个阿拉伯国家范围内不同方言的推特的数据集，并使用多个筛选器识别用户并准确识别方言，这个数据集可用于对不同阿拉伯国家范围内方言的鉴别研究。

May, 2020

NADI 2020: 第一届 Nuanced 阿拉伯语方言识别共享任务

本文介绍首个 Nuanced Arabic Dialect Identification Shared Task (NADI)，包含两个子任务，即 Subtask 1 和 Subtask 2。共有 61 个团队参与，其中 Subtask 1 有 18 个团队的 47 个提交，Subtask 2 有 9 个团队的 9 个提交。该活动旨在以子国家水平针对自然出现的细粒度方言文本进行目标识别，数据源自于 Twitter 领域。

Oct, 2020

NADI 2021：第二届阿拉伯语细分方言识别共享任务

介绍了 NADI 2021 第二次 Nuanced 阿拉伯方言识别共享任务的研究结果，该任务包括四个子任务：国家级 Modern Standard Arabic (MSA) 识别、国家级方言识别、省份级 MSA 识别和省份级子方言识别，并介绍了数据集和参与者情况。

Mar, 2021

NADI 2023：第四届阿拉伯语细分方言识别共享任务

第四届 Nuanced Arabic Dialect Identification 共享任务（NADI 2023）的研究结果是：通过提供新颖的数据集和定义有意义的子任务，NADI 旨在推动最先进的阿拉伯语自然语言处理研究，并在标准化条件下促进团队合作和比较不同方法。该研究目标包括方言识别和方言到 MSA 机器翻译，参与的团队中获胜者在这些子任务中表现出色。结果表明这些子任务仍然具有挑战性，有助于推动未来相关工作的进行。

Oct, 2023

NADI 2022：第三届阿拉伯语言方言细粒度识别任务

本论文介绍了第三届 Nuanced Arabic Dialect Identification Shared Task（NADI 2022）的结果，该任务旨在推动阿拉伯语自然语言处理等领域的发展，其中涉及到阿拉伯方言的识别和情感分析，通过标准化语境提供多样化的数据集和建模机会，共有 41 个团队注册本次任务，实际参与的有 21 个团队（105 个有效提交），其中 19 个团队参与 Subtask 1，10 个团队参与 Subtask 2。最终，获胜的团队在 Subtask 1 上取得了 27.06 的 F1 得分，在 Subtask 2 上的 F1 得分为 75.16，反映出这两个子任务仍然具有挑战性，需要进行更多未来的工作。

Oct, 2022

USTHB 参加 NADI 2023 共享任务：探索阿拉伯方言识别的预处理和特征工程策略

该研究针对阿拉伯方言识别的国家级方言识别这一子任务，对表面预处理、形态预处理、FastText 向量模型和 TF-IDF 特征的加权拼接等多个关键因素进行深入分析，使用线性支持向量分类（LSVC）模型进行分类，并取得了显著成果，F1 得分为 62.51%，接近于该子任务所提交其他系统的平均 F1 得分 72.91%。

Dec, 2023

SaudiBERT: 一种基于沙特方言语料库预训练的大型语言模型

本文介绍了 SaudiBERT，这是一个在沙特方言文本上进行预训练的单一方言阿拉伯语言模型。通过与其他六个多方言阿拉伯语言模型在 11 个评估数据集上的比较，分为情感分析和文本分类两组，SaudiBERT 在这两组中分别达到了 86.15% 和 87.86% 的平均 F1 得分，显著优于其他比较模型。此外，我们还介绍了两个新的沙特方言语料库：沙特推特巨型语料库（STMC），其中包含超过 1.41 亿条沙特方言推文，以及沙特论坛语料库（SFC），其中包含从五个沙特在线论坛收集的 15.2 GB 文本。这两个语料库被用于预训练所提出的模型，它们是文献中报道的最大的沙特方言语料库。结果确认了 SaudiBERT 在理解和分析使用沙特方言表达的阿拉伯文本方面的有效性，在大多数任务中实现了最先进的结果，并超越了研究中包含的其他语言模型。SaudiBERT 模型可以在 https://huggingface.co/faisalq/SaudiBERT 公开获取。

May, 2024

又一个阿拉伯方言识别模型

本篇论文描述了一个用于阿拉伯语的口语方言识别 (ADI) 模型，该模型在两个基准数据集 ADI-5 和 ADI-17 上始终表现优于先前发表的结果。我们探索了两种不同的架构变体：ResNet 和 ECAPA-TDNN，以及两种类型的声学特征：MFCC 和从预训练的自监督模型 UniSpeech-SAT Large 提取的特征，以及所有四个变体的融合。我们发现，ECAPA-TDNN 网络表现优于 ResNet，而具有 UniSpeech-SAT 特征的模型远远优于具有 MFCC 特征的模型。此外，所有四个变体的融合一致优于单个模型。我们的最佳模型在两个数据集上的准确率分别为 84.7% 和 96.9%，超过了先前报道的结果。

Oct, 2023