Nov, 2022

面向下一个十亿用户构建文本转语音系统

TL;DR本研究评估了科威特琴主义和印度Aryan 语言的声学模型、语音合成器、辅助损失函数、训练计划和说话者和语言多样性。基于此,我们确定了单语模型与 FastPitch 和 HiFi-GAN V1,联合训练男性和女性说话者表现最佳。在这个设置下,我们为 13 种语言训练和评估 TTS 模型,并发现我们的模型在所有语言中都明显优于现有模型。我们通过 Bhashini 平台开源所有模型。