May, 2022
NaturalSpeech:端到端文本语音合成,质量达人类水平
NaturalSpeech: End-to-End Text to Speech Synthesis with Human-Level Quality
Xu Tan, Jiawei Chen, Haohe Liu, Jian Cong, Chen Zhang...
TL;DR本文提出了一种基于变分自动编码器的 TTS 系统 NaturalSpeech,通过多个关键模块提高文本先验的容量和语音后验的复杂度,同时在 LJSpeech 数据集上实验证明该系统在句子级别上达到了人类录音的 - 0.01 CMOS(比较平均意见分数),与人类录音不存在显著性差异。