又一个阿拉伯方言识别模型

Oct, 2023

Yet Another Model for Arabic Dialect Identification

Ajinkya Kulkarni, Hanan Aldarmaki

TL;DR本篇论文描述了一个用于阿拉伯语的口语方言识别 (ADI) 模型，该模型在两个基准数据集 ADI-5 和 ADI-17 上始终表现优于先前发表的结果。我们探索了两种不同的架构变体：ResNet 和 ECAPA-TDNN，以及两种类型的声学特征：MFCC 和从预训练的自监督模型 UniSpeech-SAT Large 提取的特征，以及所有四个变体的融合。我们发现，ECAPA-TDNN 网络表现优于 ResNet，而具有 UniSpeech-SAT 特征的模型远远优于具有 MFCC 特征的模型。此外，所有四个变体的融合一致优于单个模型。我们的最佳模型在两个数据集上的准确率分别为 84.7% 和 96.9%，超过了先前报道的结果。

Abstract

In this paper, we describe a spoken arabic dialect identification (ADI) model for Arabic that consistently outperforms previously published results on two benchmark datasets: adi-5 and →

spoken arabic dialect identification adi-5 adi-17 resnet ecapa-tdnn

发现论文，激发创造

阿拉伯语方言识别的鲁棒性研究

通过自监督学习模型、迁移学习和直接分类器，对阿拉伯语方言识别系统进行评估，研究其在领域漂移情况下的鲁棒性，并发现自我训练虽能减轻此类挑战，但在实际应用中可能不足够。

Jun, 2023

为国家级方言识别创建的多方言阿拉伯 BERT

本文介绍了 Mawdoo3 AI 团队开发的预训练 BERT 模型的表现，以及该模型在 Nuanced Arabic Dialect Identification（NADI）共享任务的子任务 1 中获胜的过程和方法，并公开了 Multi-dialect-Arabic-BERT 模型的预训练语言模型组件，供其他研究人员使用。

Jul, 2020

使用预训练通用语音模型的参数高效阿拉伯语方言识别学习方法

本文探讨了使用 Parameter-Efficient-Learning 技术将一种通用语音模型重新用于阿拉伯方言识别。通过在预训练设置下引入可训练的特征等不同设置来设计了多层编码器 - 解码器 GSM 架构，包括残差适配器和模型重新编程。针对阿拉伯语言中单词的发音和拼写变化大的问题，设计了标记级映射技术来为 GSM 调节阿拉伯方言识别。在 ADI-17 数据集上，通过普通的微调方法，实现了新的最先进准确率。我们进一步采用 PEL 方法降低了训练预算，只使用了额外网络可训练参数的 2.5% 就达到了与微调相当的准确率。我们的研究表明，使用开源代码和预训练模型，可以在数据集较小和计算资源有限的情况下进行阿拉伯方言识别。

May, 2023

UnibucKernel Reloaded：两年连续获得阿拉伯方言辨别竞赛第一名

使用浅层而简单的多核学习方法，有效地提高了阿拉伯方言识别的精度。

May, 2018

2023 年 NADI 共享任务中的 Mavericks：使用基于 Transformer 的方法解开方言辨识中的区域细微差别

该研究提出了对 “Nuanced Arabic Dialect Identification (NADI) Shared Task 2023” 的方法，着重介绍了处理与国家级方言识别相关的子任务 1 的方法。该研究利用使用涵盖 18 种方言的 Twitter 数据集（TWT-2023）进行多类别分类问题的研究，采用基于 transformer 的预训练模型进行国家级方言识别，并利用集成方法提高了系统的性能，在测试数据集中取得了 76.65 的 F1 得分（排名第 11 位）。

Nov, 2023

INESC-ID 多模态系统 - ADReSS 2020 挑战赛

本文利用多模态方法，结合语音和文本特征，提出了自动检测阿尔茨海默病的分类框架，并发现语言特征对于阿尔茨海默病的分类比声学特征更为重要，能够提高分类准确率。

May, 2020

卷积神经网络和语言嵌入用于端到端方言识别

该论文介绍了使用基于 Siamese 神经网络和集成多种声学和语言特征的端到端方言识别系统，分析了在阿拉伯语言境下的效果，并探讨了数据扩充和特征融合等策略，最终获得了 78% 的分类准确率。

Mar, 2018

爱尔兰口音识别研究

研究使用声学分类模型和文本分类器来识别爱尔兰方言，以便将其纳入语音识别管道以增强精度。ECAPA-TDNN 是最佳表现的模型之一，可将其输出与文本模型的输出相结合以进一步提高准确性。作者发现该模型在鉴别阿尔斯特方言方面表现最佳，但在区分康纳赫特方言和蒙斯特方言方面具有挑战性。

Jul, 2023

USTHB 参加 NADI 2023 共享任务：探索阿拉伯方言识别的预处理和特征工程策略

该研究针对阿拉伯方言识别的国家级方言识别这一子任务，对表面预处理、形态预处理、FastText 向量模型和 TF-IDF 特征的加权拼接等多个关键因素进行深入分析，使用线性支持向量分类（LSVC）模型进行分类，并取得了显著成果，F1 得分为 62.51%，接近于该子任务所提交其他系统的平均 F1 得分 72.91%。

Dec, 2023

大规模学习通用表示以实现说话人识别

本研究旨在开发一种演讲者识别模型，该模型需要经过充分的架构和大量数据的训练，最终能够在不同的场景下得到实际应用，并且经过实验证明，采用 MFA-Conformer 模型和大数据训练配置可以使性能提高超过 20%。

Oct, 2022