Jul, 2024

基于预训练Czech SpeechT5模型的零-shot和少-shot多说话人文本转语音

TL;DR本研究解决了多说话人文本转语音(TTS)场景中数据稀缺的问题。我们提出了一种创新的方法,通过在少量目标说话人的数据上训练SpeechT5模型,实现高质量、真实感的合成语音。研究结果表明,该模型能够仅用一分钟数据生成任何说话人的合成语音,尤其在捷克政治人物和名人合成中表现出色。