基于 MARBERT 的阿拉伯方言标识改进：参加 NADI 2021 共享任务

ACLMar, 2021

基于 MARBERT 的阿拉伯方言标识改进：参加 NADI 2021 共享任务

Adapting MARBERT for Improved Arabic Dialect Identification: Submission to the NADI 2021 Shared Task

Badr AlKhamissi, Mohamed Gabr, Muhammad ElNokrashy, Khaled Essam

TL;DR本研究用 MARBERT 建立了一个 ensemble 模型来对短 DA 和 MSA 阿拉伯口语进行地理起源的识别，并在 4 个子任务上展现了最新的研究成果，进一步提高了之前工作 F1 评分约 7.63%。

Abstract

In this paper, we tackle the Nuanced arabic dialect identification (NADI) shared task (Abdul-Mageed et al., 2021) and demonstrate state-of-the-art results on all of its four subtasks. Tasks are to identify the geographic origin of short Dialectal (DA) and Modern Standard Arabic (MSA) u

arabic dialect identification nuanced arabic dialect identification marbert ensemble modeling short arabic utterances

发现论文，激发创造

为国家级方言识别创建的多方言阿拉伯 BERT

本文介绍了 Mawdoo3 AI 团队开发的预训练 BERT 模型的表现，以及该模型在 Nuanced Arabic Dialect Identification（NADI）共享任务的子任务 1 中获胜的过程和方法，并公开了 Multi-dialect-Arabic-BERT 模型的预训练语言模型组件，供其他研究人员使用。

Jul, 2020

NADI 2021：第二届阿拉伯语细分方言识别共享任务

介绍了 NADI 2021 第二次 Nuanced 阿拉伯方言识别共享任务的研究结果，该任务包括四个子任务：国家级 Modern Standard Arabic (MSA) 识别、国家级方言识别、省份级 MSA 识别和省份级子方言识别，并介绍了数据集和参与者情况。

Mar, 2021

NADI 2023：第四届阿拉伯语细分方言识别共享任务

第四届 Nuanced Arabic Dialect Identification 共享任务（NADI 2023）的研究结果是：通过提供新颖的数据集和定义有意义的子任务，NADI 旨在推动最先进的阿拉伯语自然语言处理研究，并在标准化条件下促进团队合作和比较不同方法。该研究目标包括方言识别和方言到 MSA 机器翻译，参与的团队中获胜者在这些子任务中表现出色。结果表明这些子任务仍然具有挑战性，有助于推动未来相关工作的进行。

Oct, 2023

NADI 2020: 第一届 Nuanced 阿拉伯语方言识别共享任务

本文介绍首个 Nuanced Arabic Dialect Identification Shared Task (NADI)，包含两个子任务，即 Subtask 1 和 Subtask 2。共有 61 个团队参与，其中 Subtask 1 有 18 个团队的 47 个提交，Subtask 2 有 9 个团队的 9 个提交。该活动旨在以子国家水平针对自然出现的细粒度方言文本进行目标识别，数据源自于 Twitter 领域。

Oct, 2020

2023 年 NADI 共享任务中的 Mavericks：使用基于 Transformer 的方法解开方言辨识中的区域细微差别

该研究提出了对 “Nuanced Arabic Dialect Identification (NADI) Shared Task 2023” 的方法，着重介绍了处理与国家级方言识别相关的子任务 1 的方法。该研究利用使用涵盖 18 种方言的 Twitter 数据集（TWT-2023）进行多类别分类问题的研究，采用基于 transformer 的预训练模型进行国家级方言识别，并利用集成方法提高了系统的性能，在测试数据集中取得了 76.65 的 F1 得分（排名第 11 位）。

Nov, 2023

NADI 2022：第三届阿拉伯语言方言细粒度识别任务

本论文介绍了第三届 Nuanced Arabic Dialect Identification Shared Task（NADI 2022）的结果，该任务旨在推动阿拉伯语自然语言处理等领域的发展，其中涉及到阿拉伯方言的识别和情感分析，通过标准化语境提供多样化的数据集和建模机会，共有 41 个团队注册本次任务，实际参与的有 21 个团队（105 个有效提交），其中 19 个团队参与 Subtask 1，10 个团队参与 Subtask 2。最终，获胜的团队在 Subtask 1 上取得了 27.06 的 F1 得分，在 Subtask 2 上的 F1 得分为 75.16，反映出这两个子任务仍然具有挑战性，需要进行更多未来的工作。

Oct, 2022

USTHB 参加 NADI 2023 共享任务：探索阿拉伯方言识别的预处理和特征工程策略

该研究针对阿拉伯方言识别的国家级方言识别这一子任务，对表面预处理、形态预处理、FastText 向量模型和 TF-IDF 特征的加权拼接等多个关键因素进行深入分析，使用线性支持向量分类（LSVC）模型进行分类，并取得了显著成果，F1 得分为 62.51%，接近于该子任务所提交其他系统的平均 F1 得分 72.91%。

Dec, 2023

微方言识别在混杂语环境中的应用

介绍了微方言识别 (MDI) 的新任务，提出了一个新语言模型 MARBERT，可以通过单个短消息预测微小城市级别的语言方言，并通过新数据集证明了该模型的实用性，达到了 9.9% F1 的精度，且在其他任务上实现了最新的最佳表现。

Oct, 2020

又一个阿拉伯方言识别模型

本篇论文描述了一个用于阿拉伯语的口语方言识别 (ADI) 模型，该模型在两个基准数据集 ADI-5 和 ADI-17 上始终表现优于先前发表的结果。我们探索了两种不同的架构变体：ResNet 和 ECAPA-TDNN，以及两种类型的声学特征：MFCC 和从预训练的自监督模型 UniSpeech-SAT Large 提取的特征，以及所有四个变体的融合。我们发现，ECAPA-TDNN 网络表现优于 ResNet，而具有 UniSpeech-SAT 特征的模型远远优于具有 MFCC 特征的模型。此外，所有四个变体的融合一致优于单个模型。我们的最佳模型在两个数据集上的准确率分别为 84.7% 和 96.9%，超过了先前报道的结果。

Oct, 2023

ARBERT 和 MARBERT: 面向阿拉伯语的深度双向转换器

本文提出了两个基于深度双向变压器的模型 ARBERT 和 MARBERT，并引入了一个针对多语言阿拉伯语理解评估的基准 ARLUE。在 42 个数据集上进行了一系列基准实验，结果表明将这两种模型细化后在大多数任务上取得了最先进的结果并提供了公共可用的模型。

Dec, 2020