Training a conventional automatic speech recognition (ASR) system to support
multiple languages is challenging because the sub-word unit, lexicon and word
inventories are typically language specific. In contrast, sequen
本文探讨了利用单一声学模型进行多种语言训练,以提高低资源语言的自动语音识别性能,并简化支持多种语言的 ASR 系统的部署。作者在 51 种语言上进行广泛的基准测试和比较,表明与单语言训练相比,多语言训练的 ASR 模型可以提高识别性能,特别是对于低资源语言。与单语言基线相比,联合模型、具有语言输入的联合模型和多头模型的平均 WER 相对减少 20.9%、23%和 28.8%。据我们所知,这是第一次研究超过 50 种语言和超过 16,000 小时声音跨其的多语言 ASR 的大规模研究。