Jul, 2022

Diffsound: 文本生成音效的离散扩散模型

TL;DR本研究提出了一种基于非自回归解码器、矢量量化变分自编码器、谱图及声码器的文本到声音生成框架,在声音生成效果和速度方面较传统的自回归解码器都有较大的提升。