Sep, 2022

可控口音的语音合成

TL;DR该论文提出了一种神经网络 TTS 架构,可在推理期间控制重音和重音强度,并以三种新机制实现,即使用方案控制因子建模复杂的重音变异,量化重音强度的强调强度建模策略以及一致性约束模块。实验为该模型的重音渲染和强度控制性能提供了证明,并证明其是有史以来第一篇关于具有明确强度控制的重音 TTS 合成的研究。