Jun, 2018

从说话人验证到多说话人语音合成的迁移学习

TL;DR描述了一个基于神经网络的文本转语音(TTS)合成系统,可以以许多不同讲话者的声音生成语音音频,该系统由三个独立训练的部分组成,包括训练说话者编码器网络进行讲话者验证任务,基于 Tacotron 2 的序列合成网络,以及将梅尔频谱图转换为时间领域波形样本的自回归 WaveNet 基声码器。