Oct, 2023

又一个阿拉伯方言识别模型

TL;DR本篇论文描述了一个用于阿拉伯语的口语方言识别 (ADI) 模型,该模型在两个基准数据集 ADI-5 和 ADI-17 上始终表现优于先前发表的结果。我们探索了两种不同的架构变体:ResNet 和 ECAPA-TDNN,以及两种类型的声学特征:MFCC 和从预训练的自监督模型 UniSpeech-SAT Large 提取的特征,以及所有四个变体的融合。我们发现,ECAPA-TDNN 网络表现优于 ResNet,而具有 UniSpeech-SAT 特征的模型远远优于具有 MFCC 特征的模型。此外,所有四个变体的融合一致优于单个模型。我们的最佳模型在两个数据集上的准确率分别为 84.7% 和 96.9%,超过了先前报道的结果。