Aug, 2024

SimpleSpeech 2:朝着简单高效的文本到语音转换,基于流的标量潜在变换器扩散模型

TL;DR本研究针对当前文本到语音转换(TTS)技术中存在的生成质量不稳定和生成速度慢的问题,提出了一种新的非自回归(NAR)TTS框架SimpleSpeech 2。该模型结合了自回归(AR)和非自回归(NAR)方法的优点,简化了数据准备和模型设计,同时实现了高质量的生成性能和快速的推理速度,显示出显著的性能和速度提升,并可扩展至多语言TTS。