野外阿拉伯方言识别

May, 2020

Arabic Dialect Identification in the Wild

PDF

Ahmed Abdelali, Hamdy Mubarak, Younes Samih, Sabit Hassan, Kareem Darwish

TL;DR用 QADI 建立了一个包含来自 18 个阿拉伯国家范围内不同方言的推特的数据集，并使用多个筛选器识别用户并准确识别方言，这个数据集可用于对不同阿拉伯国家范围内方言的鉴别研究。

Abstract

We present qadi, an automatically collected dataset of tweets belonging to a wide range of country-level →

qadi arabic dialects dataset country-level dialect identification

发现论文，激发创造

为国家级方言识别创建的多方言阿拉伯 BERT

本文介绍了 Mawdoo3 AI 团队开发的预训练 BERT 模型的表现，以及该模型在 Nuanced Arabic Dialect Identification（NADI）共享任务的子任务 1 中获胜的过程和方法，并公开了 Multi-dialect-Arabic-BERT 模型的预训练语言模型组件，供其他研究人员使用。

Jul, 2020

2023 年 NADI 共享任务中的 Mavericks：使用基于 Transformer 的方法解开方言辨识中的区域细微差别

该研究提出了对 “Nuanced Arabic Dialect Identification (NADI) Shared Task 2023” 的方法，着重介绍了处理与国家级方言识别相关的子任务 1 的方法。该研究利用使用涵盖 18 种方言的 Twitter 数据集（TWT-2023）进行多类别分类问题的研究，采用基于 transformer 的预训练模型进行国家级方言识别，并利用集成方法提高了系统的性能，在测试数据集中取得了 76.65 的 F1 得分（排名第 11 位）。

Nov, 2023

NADI 2020: 第一届 Nuanced 阿拉伯语方言识别共享任务

本文介绍首个 Nuanced Arabic Dialect Identification Shared Task (NADI)，包含两个子任务，即 Subtask 1 和 Subtask 2。共有 61 个团队参与，其中 Subtask 1 有 18 个团队的 47 个提交，Subtask 2 有 9 个团队的 9 个提交。该活动旨在以子国家水平针对自然出现的细粒度方言文本进行目标识别，数据源自于 Twitter 领域。

Oct, 2020

ALDi：量化文本中阿拉伯方言程度

此篇研究论文介绍了在阿拉伯语中的方言识别问题，并提出了一种新的方法 —— 阿拉伯语方言水平（ALDi），这是一个连续的语言变量。研究使用 AOC-ALDi 数据集进行分析，并通过案例研究展示了 ALDi 在揭示阿拉伯语使用者在不同情境中的语言风格选择方面的有用性。

Oct, 2023

Arap-Tweet：一个多方言 Twitter 语料库，用于性别、年龄和语言变体识别

本文介绍了 Arap-Tweet，这是一个涵盖阿拉伯世界 11 个地区和 16 个国家方言变体的大规模、多方言 Tweets 语料库，其中包括针对年龄、性别和方言变体的注释，并讨论了语料库的数据集合和标注方法，以及为阿拉伯语开发作者分析工具和 NLP 工具提供帮助的重要性。

Aug, 2018

推特上的阿拉伯攻击性言论：分析与实验

本论文介绍了一种构建阿拉伯语攻击性社交媒体贴文数据集的方法，分析了导致攻击性社交媒体贴文的因素和阿拉伯语使用攻击性语言的方式，并采用先进技术在该数据集上取得了 F1=83.2 的优秀结果。

Apr, 2020

NADI 2021：第二届阿拉伯语细分方言识别共享任务

介绍了 NADI 2021 第二次 Nuanced 阿拉伯方言识别共享任务的研究结果，该任务包括四个子任务：国家级 Modern Standard Arabic (MSA) 识别、国家级方言识别、省份级 MSA 识别和省份级子方言识别，并介绍了数据集和参与者情况。

Mar, 2021

OSN-MDAD：在线社交媒体上阿拉伯多方言对话的机器翻译数据集

通过翻译英文推文到阿拉伯文的海湾、也门、伊拉克和黎凡特方言，我们构建了一个在线社交网络基础多方言阿拉伯文数据集，用以改善阿拉伯文多方言机器翻译系统的性能。

Sep, 2023

阿拉伯广播语音的自动方言识别

本文研究使用语音识别系统获得的音位、词汇特征以及基于 i - 向量框架的声学特征等不同方法来进行阿拉伯语方言识别的研究，使用多类支持向量机（SVM）综合这些特征，并在阿拉伯语 / 英语语言识别任务中获得 100％的准确率。在本研究中，我们使用这些特征作为二元分类器来对现代标准阿拉伯语（MSA）和方言阿拉伯语进行区分，获得了 100％的准确率，然后进一步报道了使用该方法来区分最广泛使用的阿拉伯语方言中的五种：埃及语，海湾语，黎凡特语，北非语和 MSA，准确率为 52％。本文讨论了方言识别的错误以及在方言阿拉伯语和 MSA 之间进行语言代码切换的上下文中的错误模式。最后我们释放了研究中使用的数据作为方言识别的标准语料库。

Sep, 2015

阿拉伯方言识别审视：单标签分类的局限性

Automatic Arabic Dialect Identification (ADI) 系统无法准确区分阿拉伯语的微方言，我们建议将 ADI 任务构建为多标签分类任务并提供设计新的 ADI 数据集的建议。

Oct, 2023