阿拉伯方言识别审视:单标签分类的局限性
通过自监督学习模型、迁移学习和直接分类器,对阿拉伯语方言识别系统进行评估,研究其在领域漂移情况下的鲁棒性,并发现自我训练虽能减轻此类挑战,但在实际应用中可能不足够。
Jun, 2023
此篇研究论文介绍了在阿拉伯语中的方言识别问题,并提出了一种新的方法 —— 阿拉伯语方言水平(ALDi),这是一个连续的语言变量。研究使用 AOC-ALDi 数据集进行分析,并通过案例研究展示了 ALDi 在揭示阿拉伯语使用者在不同情境中的语言风格选择方面的有用性。
Oct, 2023
在多方言阿拉伯数据集的标注中,将样本随机分配给一组阿拉伯母语者是常见的。最近的分析推荐将方言样本分配给其各自方言的母语者,以构建更高质量的数据集。然而,自动识别样本的方言是困难的。此研究通过分析 ALDi 得分和标注者一致性之间的关系,在 15 个公共数据集上得出强有力的支持,从而证明了我们的假设。因此,我们建议将高 ALDi 得分的样本优先分配给每个样本方言的本地说话者,并能够以较高精度自动识别方言。
May, 2024
本文介绍了 Mawdoo3 AI 团队开发的预训练 BERT 模型的表现,以及该模型在 Nuanced Arabic Dialect Identification(NADI)共享任务的子任务 1 中获胜的过程和方法,并公开了 Multi-dialect-Arabic-BERT 模型的预训练语言模型组件,供其他研究人员使用。
Jul, 2020
本文研究使用语音识别系统获得的音位、词汇特征以及基于 i - 向量框架的声学特征等不同方法来进行阿拉伯语方言识别的研究,使用多类支持向量机(SVM)综合这些特征,并在阿拉伯语 / 英语语言识别任务中获得 100%的准确率。在本研究中,我们使用这些特征作为二元分类器来对现代标准阿拉伯语(MSA)和方言阿拉伯语进行区分,获得了 100%的准确率,然后进一步报道了使用该方法来区分最广泛使用的阿拉伯语方言中的五种:埃及语,海湾语,黎凡特语,北非语和 MSA,准确率为 52%。本文讨论了方言识别的错误以及在方言阿拉伯语和 MSA 之间进行语言代码切换的上下文中的错误模式。最后我们释放了研究中使用的数据作为方言识别的标准语料库。
Sep, 2015
用 QADI 建立了一个包含来自 18 个阿拉伯国家范围内不同方言的推特的数据集,并使用多个筛选器识别用户并准确识别方言,这个数据集可用于对不同阿拉伯国家范围内方言的鉴别研究。
May, 2020
本篇论文描述了一个用于阿拉伯语的口语方言识别 (ADI) 模型,该模型在两个基准数据集 ADI-5 和 ADI-17 上始终表现优于先前发表的结果。我们探索了两种不同的架构变体:ResNet 和 ECAPA-TDNN,以及两种类型的声学特征:MFCC 和从预训练的自监督模型 UniSpeech-SAT Large 提取的特征,以及所有四个变体的融合。我们发现,ECAPA-TDNN 网络表现优于 ResNet,而具有 UniSpeech-SAT 特征的模型远远优于具有 MFCC 特征的模型。此外,所有四个变体的融合一致优于单个模型。我们的最佳模型在两个数据集上的准确率分别为 84.7% 和 96.9%,超过了先前报道的结果。
Oct, 2023
该研究针对阿拉伯方言识别的国家级方言识别这一子任务,对表面预处理、形态预处理、FastText 向量模型和 TF-IDF 特征的加权拼接等多个关键因素进行深入分析,使用线性支持向量分类(LSVC)模型进行分类,并取得了显著成果,F1 得分为 62.51%,接近于该子任务所提交其他系统的平均 F1 得分 72.91%。
Dec, 2023
本文介绍首个 Nuanced Arabic Dialect Identification Shared Task (NADI),包含两个子任务,即 Subtask 1 和 Subtask 2。共有 61 个团队参与,其中 Subtask 1 有 18 个团队的 47 个提交,Subtask 2 有 9 个团队的 9 个提交。该活动旨在以子国家水平针对自然出现的细粒度方言文本进行目标识别,数据源自于 Twitter 领域。
Oct, 2020