May, 2024

在多任务框架中的低资源爱尔兰语语音识别和方言识别

TL;DR使用中级 CTC (InterCTC) 训练的混合 CTC/Attention 编码器 - 解码器模型,探索了爱尔兰 (盖尔语) 低资源语音识别 (ASR) 和方言识别 (DID)。通过与目前在 ASR (TDNN-HMM) 和 DID (ECAPA-TDNN) 训练的最佳模型进行对比,首先确定了最佳的 InterCTC 设置,并使用 E-branchformer 编码器训练了一个模型,并比较了两种架构的性能。使用多任务微调方法进行语言模型 (LM) 浅聚合,实验结果显示与基线 ECAPA-TDNN 相比,DID 准确率提高了 10.8%,并且字误率性能接近 TDNN-HMM 模型。这种多任务方法展示了在爱尔兰低资源 ASR 和 DID 中的潜在优势。