Nov, 2020

Wave-Tacotron: 基于端到端的文本到语音合成的光谱图自由方法

TL;DR本研究描述了一种序列到序列的神经网络,可以直接将文本输入转化为语音波形,具备较快的语音生成速度,而且不需要使用中间特征来实现。该模型使用自回归解码器循环与标准化流相结合,对输出波形进行建模,并能够处理长期依赖关系。实验证明,所提出的模型的语音生成质量接近最新的神经网络 TTS 系统,并具有明显的加速优势。