Mar, 2019

使用多源 Tacotron 和 WaveNet 的文本转语音和声音转换联合训练框架

TL;DR我们提出了一种使用 Tacotron 的扩展模型体系结构,将其作为文本到语音(TTS)任务和语音转换(VC)任务的共享模型进行训练。通过使用多源序列到序列模型作为共享模型,我们可以分别根据输入类型完成这两个不同的任务。使用预测的 mel-spectrogram 调制 WaveNet 生成波形信号,并建议联合训练一个支持多个源的目标说话人解码器的共享模型。听觉实验表明,我们提出的多源编码器 - 解码器模型可以有效地实现 TTS 和 VC 任务。