Jun, 2022

简单有效的多句 TTS 系统,具有表达和连贯的韵律

TL;DR本文针对长文本合成语音的特殊困难,通过将上下文信息、强大文本特征和多人数据用于 Transformer-based FastSpeech 的简单扩展,改进了合成语音的韵律,其中 BERT 也受益于更多的训练数据。通过客观的停顿和速度指标和全面的主观评估,得出了一种较强的合成语音系统,其中包括所有改进扩展,相对于同类竞品在语音自然度方面表现出显著的提升。