Jan, 2023

基于 Phoneme 级别的 BERT 和 Grapheme 预测增强文本转语音的韵律

TL;DR本研究提出了预训练的基于音素级别的 BERT 编码器,通过预测对应的字母表顺序来提高生成语音的自然度,并在主观评估中证明其在未知范围的文本中相比基于状态的 TTS 模型有显著提高的平均意见评分。