Oct, 2018

基于神经源 - 滤波器的波形模型用于统计参数语音合成

TL;DR该研究提出了一种非自回归神经源滤波波形模型,它可以直接使用基于光谱的训练准则和随机梯度下降方法进行训练,并生成至少比 AR WaveNet 快 100 倍的波形,生成的合成语音质量与 AR WaveNet 的语音生成质量接近,其中正弦波激励信号和基于光谱的训练准则对该模型的表现均至关重要。