Jun, 2022

利用跨领域和跨语言的超声舌影像特征进行老年人和发音障碍者语音识别

TL;DR本文提出了一种跨领域和跨语言的 A2A 反演方法,利用 24 小时 TaL 语料库的并行音频和超声舌成像数据,将其在 A2A 模型预训练时进行交叉领域和跨语言适应,以产生基于超声口腔影像的发音特征。实验表明,将生成的发音特征纳入自动语音识别系统中,相对于仅使用声学特征的基线 TDNN 和 Conformer ASR 系统,应用数据增强、扬声器适应和跨系统多通道解码后,单词或字符错误率降低了最多 4.75%、2.59%和 2.07%的绝对误差(相对误差最高可达 14.69%、10.64%和 22.72%)。