Exploiting cross-lingual resources is an effective way to compensate for data
scarcity of low resource languages. Recently, a novel multilingual model fusion
technique has been proposed where a model is trained t
本文介绍了一种单一的基于字形的 ASR 模型,采用标准的混合 BLSTM-HMM 声学模型以及晶格自由 MMI 目标进行学习,能对七种语言进行无歧义的识别,并且比每个单一语言的 ASR 模型表现更佳。同时,我们还评估了多种数据增强的方法,并且展示了这种提出的多语言字素混合 ASR 与各种数据增强不仅能识别任何训练集内的语言,还能大大提高 ASR 性能。
本文研究跨语种多人语音合成以及跨语种语音转换,并将其应用于自动语音识别(ASR)系统的数据增强。经过大量实验,我们证明了通过使用仅一个目标语言说话者进行模型训练,可以使用语音合成和语音转换来提高目标语言上的 ASR 系统。我们成功地缩小了 ASR 模型训练时使用合成的语音与使用人类语音之间的差距,并通过我们的数据增强方法,在目标语言中仅使用一个真实说话者就能获得有希望的 ASR 训练结果。