Apr, 2023
使用自监督语音表示模型进行零样本文本转语音合成
Zero-shot text-to-speech synthesis conditioned using self-supervised speech representation model
Kenichi Fujita, Takanori Ashihara, Hiroki Kanagawa, Takafumi Moriya, Yusuke Ijima
TL;DR本研究提出了一种零样本文本转语音模型,使用自监督学习获取的语音表示模型进行条件控制,并引入了声学特征和音素持续时间预测器的分离调制以提高重现性能和语音转换效果。