ICMLMay, 2019

非自回归神经文本转语音

TL;DR本文提出 ParaNet,一种非自回归 seq2seq 模型,用于将文本转换为频谱图,并通过各种平行神经音色器进行了测试,其中包括一种基于 VAE 的方法,用于从头开始训练反自回归流(IAF)平行音色器。