Apr, 2018

基于神经网络的语音合成方法中最新的波形产生和声学模型方法的比较

TL;DR本文研究语音合成技术,并采用先进的机器学习方法克服了振幅频谱和声学模型过度平滑等局限性,在大规模众包评估中,发现生成性对抗网络和自回归模型表现优于普通循环神经网络。同时,使用相同的自回归声学模型进行评估,Wavenet 声码器优于经典的源 - 滤波器型声码器。尤其是,组合自回归声学模型和 Wavenet 声码器生成的语音波形与声学单元表现出类似的语音质量得分。