Jul, 2023

正则流与扩散模型在文本转语音中的韵律和声学建模的比较

TL;DR神经语音合成系统通常以 L1/L2 损失为优化目标,本研究比较了传统的基于 L1/L2 的方法与扩散和流模型在语音合成中的效果,并发现流模型在音谱图预测方面表现最佳,同时扩散和流模型在韵律预测方面也显著优于典型的 L2 训练模型。