Jan, 2023
基于 Phoneme 级别的 BERT 和 Grapheme 预测增强文本转语音的韵律
Phoneme-Level BERT for Enhanced Prosody of Text-to-Speech with Grapheme Predictions
Yinghao Aaron Li, Cong Han, Xilin Jiang, Nima Mesgarani
TL;DR本研究提出了预训练的基于音素级别的 BERT 编码器,通过预测对应的字母表顺序来提高生成语音的自然度,并在主观评估中证明其在未知范围的文本中相比基于状态的 TTS 模型有显著提高的平均意见评分。