Nov, 2023

E3 TTS:简易端到端扩散基于文本到语音技术

TL;DR我们提出了一种简单高效的端到端扩散式文本转语音模型,通过扩散过程直接从纯文本生成音频波形。该模型无需中间表示,能够支持给定音频的灵活潜在结构,从而实现轻松适应零样本任务。实验证明,该模型能够生成高保真音频,接近最先进的神经网络语音合成系统的性能。