Oct, 2022

重音文本转语音的明确强度掌控

TL;DR本文提出了一种直观明确的口音强度控制方案,首先从 L1 语音识别模型中提取后验概率,称为 “发音好坏度”,量化有重音的语音的音素重音程度,然后设计了一种基于 FastSpeech2 的 TTS 模型 Ai-TTS,在语音生成过程中考虑口音强度表达。实验证明,我们的方法在口音渲染和强度控制方面优于基线模型。