Dec, 2017

通过在 Mel 频谱预测上调节 WaveNet,进行自然语音合成

TL;DR该论文阐述了 Tacotron 2 的神经网络框架,该框架可以从文本中直接合成语音,其系统由一种递归的序列到序列的特征预测网络和一个修改的 WaveNet 模型组成,能够实现与专业录制的语音相当的平均意见分数 (MOS)。