May, 2021

Grad-TTS: 一种文本转语音的扩散概率模型

TL;DRGrad-TTS是一款使用基于得分的解码器的文本转语音模型,使用随机微积分的方法将通过噪声预测的语音信号和文本输入进行逐步变换,从而实现噪声到语音的重建,并能够在保持音质、推理速度之间进行灵活平衡。主观人评表明Grad-TTS在Mean Opinion Score方面具有与最先进的文本转语音方法相竞争的能力。