ICMLFeb, 2017

深度之声:实时神经文本转语音

TL;DRDeep Voice 是一个使用深度神经网络构建的优秀的文本到语音系统,由五个主要组成部分构成,包括用于定位语音边界的分段模型、字素到音素转换模型、音素持续时间预测模型、基频预测模型和音频合成模型。通过使用神经网络进行每个组件的构建,既简单又灵活。此外,我们通过优化后的 WaveNet 推断内核,实现了 400 倍的实时速度。