ALDi：量化文本中阿拉伯方言程度

EMNLPOct, 2023

ALDi: Quantifying the Arabic Level of Dialectness of Text

Amr Keleg, Sharon Goldwater, Walid Magdy

TL;DR此篇研究论文介绍了在阿拉伯语中的方言识别问题，并提出了一种新的方法 —— 阿拉伯语方言水平（ALDi），这是一个连续的语言变量。研究使用 AOC-ALDi 数据集进行分析，并通过案例研究展示了 ALDi 在揭示阿拉伯语使用者在不同情境中的语言风格选择方面的有用性。

Abstract

Transcribed speech and user-generated text in arabic typically contain a mixture of Modern Standard arabic (MSA), the standardized language taught in schools, and Dialectal →

arabic dialectal arabic dialect identification arabic level of dialectness aoc-aldi dataset

发现论文，激发创造

估计方言程度预测多方言阿拉伯数据集的标注者一致性

在多方言阿拉伯数据集的标注中，将样本随机分配给一组阿拉伯母语者是常见的。最近的分析推荐将方言样本分配给其各自方言的母语者，以构建更高质量的数据集。然而，自动识别样本的方言是困难的。此研究通过分析 ALDi 得分和标注者一致性之间的关系，在 15 个公共数据集上得出强有力的支持，从而证明了我们的假设。因此，我们建议将高 ALDi 得分的样本优先分配给每个样本方言的本地说话者，并能够以较高精度自动识别方言。

May, 2024

阿拉伯方言识别审视：单标签分类的局限性

Automatic Arabic Dialect Identification (ADI) 系统无法准确区分阿拉伯语的微方言，我们建议将 ADI 任务构建为多标签分类任务并提供设计新的 ADI 数据集的建议。

Oct, 2023

OSN-MDAD：在线社交媒体上阿拉伯多方言对话的机器翻译数据集

通过翻译英文推文到阿拉伯文的海湾、也门、伊拉克和黎凡特方言，我们构建了一个在线社交网络基础多方言阿拉伯文数据集，用以改善阿拉伯文多方言机器翻译系统的性能。

Sep, 2023

自动方言文本规范化中的方言识别技术的应用

阐述了方言阿拉伯语在社交媒体平台上的使用扩展以及由此带来的挑战，提出了 CODAfication 任务的解决方案，并通过使用方言识别信息来改善性能，在多个阿拉伯方言上进行了测试和预训练模型的评估。

Jul, 2024

野外阿拉伯方言识别

用 QADI 建立了一个包含来自 18 个阿拉伯国家范围内不同方言的推特的数据集，并使用多个筛选器识别用户并准确识别方言，这个数据集可用于对不同阿拉伯国家范围内方言的鉴别研究。

May, 2020

为国家级方言识别创建的多方言阿拉伯 BERT

本文介绍了 Mawdoo3 AI 团队开发的预训练 BERT 模型的表现，以及该模型在 Nuanced Arabic Dialect Identification（NADI）共享任务的子任务 1 中获胜的过程和方法，并公开了 Multi-dialect-Arabic-BERT 模型的预训练语言模型组件，供其他研究人员使用。

Jul, 2020

阿拉伯语方言识别的鲁棒性研究

通过自监督学习模型、迁移学习和直接分类器，对阿拉伯语方言识别系统进行评估，研究其在领域漂移情况下的鲁棒性，并发现自我训练虽能减轻此类挑战，但在实际应用中可能不足够。

Jun, 2023

阿拉伯广播语音的自动方言识别

本文研究使用语音识别系统获得的音位、词汇特征以及基于 i - 向量框架的声学特征等不同方法来进行阿拉伯语方言识别的研究，使用多类支持向量机（SVM）综合这些特征，并在阿拉伯语 / 英语语言识别任务中获得 100％的准确率。在本研究中，我们使用这些特征作为二元分类器来对现代标准阿拉伯语（MSA）和方言阿拉伯语进行区分，获得了 100％的准确率，然后进一步报道了使用该方法来区分最广泛使用的阿拉伯语方言中的五种：埃及语，海湾语，黎凡特语，北非语和 MSA，准确率为 52％。本文讨论了方言识别的错误以及在方言阿拉伯语和 MSA 之间进行语言代码切换的上下文中的错误模式。最后我们释放了研究中使用的数据作为方言识别的标准语料库。

Sep, 2015

利山语：带有形态注释的也门、伊拉克、利比亚和苏丹阿拉伯方言语料库

本文介绍了使用 ADAT 工具在多个社交媒体平台中收集了逾 120 万单词量的四种不同阿拉伯方言 Lisan Corpus，并对其词干和词缀进行了分词和词形注解。

Dec, 2022

基于内容本地化的低资源方言阿拉伯语情感和仇恨行为分析系统：从英语到黎凡特语和海湾语

提出利用内容本土化的基于神经机器翻译的方法，为低资源阿拉伯方言（如黎凡特语和海湾语）开发情感和仇恨分类器，并通过无监督学习推断隐藏主题，从而在其本土语言 / 方言中提供连贯的解释，从而实现准确区分情感并识别仇恨内容的有效性。

Nov, 2023