Aug, 2024
SimpleSpeech 2:朝着简单高效的文本到语音转换,基于流的标量潜在变换器扩散模型
SimpleSpeech 2: Towards Simple and Efficient Text-to-Speech with
Flow-based Scalar Latent Transformer Diffusion Models
TL;DR本研究针对当前文本到语音转换(TTS)技术中存在的生成质量不稳定和生成速度慢的问题,提出了一种新的非自回归(NAR)TTS框架SimpleSpeech 2。该模型结合了自回归(AR)和非自回归(NAR)方法的优点,简化了数据准备和模型设计,同时实现了高质量的生成性能和快速的推理速度,显示出显著的性能和速度提升,并可扩展至多语言TTS。