Jul, 2023

DiffProsody: 基于扩散的潜在韵律生成,用于具有韵律条件对抗训练的表情化语音合成

TL;DR通过使用基于扩散的潜在韵律生成器和韵律条件对抗训练的新方法 DiffProsody,本研究证实了其在生成韵律向量方面的有效性,并且韵律条件鉴别器通过准确模拟韵律极大提高了生成语音的质量。使用去噪扩散生成对抗网络提高了韵律生成的速度,因此 DiffProsody 能够比传统的扩散模型生成韵律的速度快 16 倍。通过实验证明了我们提出的方法具有卓越的性能。