Oct, 2022

具有 CTC 嵌入的语言增强变压器模型用于语音识别

TL;DR本文介绍了一种基于联合 CTC-Attention 模型的改进方法 —— 语言增强变压器,它通过在训练过程中将改进的 CTC 信息引入解码器,从而使其更加鲁棒,在 AISHELL-1 语音语料库上的实验表明,字符误差率(CER)减少了高达 7%,同时发现在联合 CTC-Attention ASR 模型中,解码器对语言信息比声学信息更敏感。