BriefGPT.xyz
Feb, 2017
深度之声:实时神经文本转语音
Deep Voice: Real-time Neural Text-to-Speech
HTML
PDF
Sercan O. Arik, Mike Chrzanowski, Adam Coates, Gregory Diamos, Andrew Gibiansky...
TL;DR
Deep Voice是一个使用深度神经网络构建的优秀的文本到语音系统,由五个主要组成部分构成,包括用于定位语音边界的分段模型、字素到音素转换模型、音素持续时间预测模型、基频预测模型和音频合成模型。通过使用神经网络进行每个组件的构建,既简单又灵活。此外,我们通过优化后的WaveNet推断内核,实现了400倍的实时速度。
Abstract
We present
deep voice
, a production-quality
text-to-speech
system constructed entirely from deep neural networks.
deep voice
lays the grou
→