基于预训练Czech SpeechT5模型的零-shot和少-shot多说话人文本转语音

Jul, 2024

基于预训练Czech SpeechT5模型的零-shot和少-shot多说话人文本转语音

Zero-Shot vs. Few-Shot Multi-Speaker TTS Using Pre-trained Czech SpeechT5 Model

Jan Lehečka, Zdeněk Hanzlíček, Jindřich Matoušek, Daniel Tihelka

TL;DR本研究解决了多说话人文本转语音(TTS)场景中数据稀缺的问题。我们提出了一种创新的方法，通过在少量目标说话人的数据上训练SpeechT5模型，实现高质量、真实感的合成语音。研究结果表明，该模型能够仅用一分钟数据生成任何说话人的合成语音，尤其在捷克政治人物和名人合成中表现出色。

Abstract

In this paper, we experimented with the SpeechT5 model pre-trained on large-scale datasets. We pre-trained the foundation model from scratch and fine-tuned it on a large-scale robust Multi-Speaker Text-to-Speech