Feb, 2023

CrossSpeech: 跨语种语音合成的发音无关音频表征

TL;DR本文提出 CrossSpeech,通过在声学特征级别上有效地分离说话人和语言信息来提高跨语言语音的质量。具体而言,CrossSpeech 将语音生成流程分解为 SIG 和 SDG,通过分别处理每个信息,可以获得分离的说话人和语言表示。通过实验证明,CrossSpeech 在跨语言 TTS 中取得了显著的改进,特别是在与目标说话人的说话人相似性方面。