Dec, 2023

低资源条件下的混合文字语音合成

TL;DR我们提出了适用于电子商务应用的生产级代码混合印地语 - 英语 TTS 系统的方法。我们采用了一种以数据为导向的方法,通过利用各种语言的单语数据集。我们演示了在纯代码混合测试集上,这种单一脚本双语训练的效果很好。我们还通过 Tacotron2 + Waveglow 的设置对单说话人适应和多说话人训练进行了详尽的评估,结果显示前一种方法效果更好。我们还结合了迁移学习和仅解码器微调来提高性能。我们将这些方法与 Google TTS 进行了比较,使用我们提出的迁移学习方法获得了 CMOS 分数为 0.02。我们还进行了低资源语音适应实验,结果表明只需要 3 小时的数据就可以引入新语音。这凸显了我们预先训练模型在资源受限设置中的重要性。我们在大量的领域外纯代码混合句子上进行了主观评估,以展示系统的高质量。