ICLROct, 2017

深度语音 3:使用卷积序列学习扩展语音合成

TL;DRDeep Voice 3 是一种全卷积自注意神经文本转语音系统,可以很好地匹配目前最先进的神经语音合成系统的自然度,同时训练速度快于十倍。通过在超过 2000 位演讲者的超过 800 小时的音频数据上进行训练,实现了 TTS 数据集规模的前所未有的扩展。同时,我们描述了如何缩放指向注意的语音合成网络的推断,以在单个 GPU 服务器上每天缩放到 1000 万个查询,并比较了几种不同的波形综合方法。