Sep, 2019

多语种图音融合 ASR 与大规模数据增强

TL;DR本文介绍了一种单一的基于字形的 ASR 模型,采用标准的混合 BLSTM-HMM 声学模型以及晶格自由 MMI 目标进行学习,能对七种语言进行无歧义的识别,并且比每个单一语言的 ASR 模型表现更佳。同时,我们还评估了多种数据增强的方法,并且展示了这种提出的多语言字素混合 ASR 与各种数据增强不仅能识别任何训练集内的语言,还能大大提高 ASR 性能。