May, 2023

MParrotTTS: 低资源情境下的多语言多说话人文本转语音合成

TL;DR我们提出了 MParrotTTS,它是一个统一的多语言、多说话者的文字转语音合成模型,能够生成高质量的语音。使用自我监督语音表示的模块化训练范式,MParrotTTS 能够以最少的监督数据适应新语言,并在训练自我监督骨干的同时,泛化到未见过的语言。此外,MParrotTTS 不需对任何双语或平行例子进行训练,即可跨语言转移语音并保留说话者的特点。在六种语言上,我们通过并行和跨语言合成的语音流畅度和说话者相似度方面的广泛结果,证明了所提出模型优于现有的最先进的多语言 TTS 模型和基线, 只使用少量的受控训练数据。可以在此 https URL 找到我们模型的语音样本。