Training automatic speech recognition (ASR) systems requires large amounts of
data in the target language in order to achieve good performance. Whereas large
training corpora are readily available for languages like English, there exists
a long tail of languages which do suffer from a
本文介绍了一种单一的基于字形的 ASR 模型,采用标准的混合 BLSTM-HMM 声学模型以及晶格自由 MMI 目标进行学习,能对七种语言进行无歧义的识别,并且比每个单一语言的 ASR 模型表现更佳。同时,我们还评估了多种数据增强的方法,并且展示了这种提出的多语言字素混合 ASR 与各种数据增强不仅能识别任何训练集内的语言,还能大大提高 ASR 性能。