Jul, 2023
正则流与扩散模型在文本转语音中的韵律和声学建模的比较
Comparing normalizing flows and diffusion models for prosody and acoustic modelling in text-to-speech
Guangyan Zhang, Thomas Merritt, Manuel Sam Ribeiro, Biel Tura-Vecino, Kayoko Yanagisawa...
TL;DR神经语音合成系统通常以 L1/L2 损失为优化目标,本研究比较了传统的基于 L1/L2 的方法与扩散和流模型在语音合成中的效果,并发现流模型在音谱图预测方面表现最佳,同时扩散和流模型在韵律预测方面也显著优于典型的 L2 训练模型。