May, 2023

XPhoneBERT:用于文本到语音的音素表征的预训练多语种模型

TL;DR本研究介绍了 XPhoneBERT,这是第一个多语种模型,经过预训练学习用于下游文本转语音任务的音素表示。我们使用 RoBERTa 预训练方法对近 100 种语言和地区的 330M 个音素级句子进行了训练。实验结果表明,将 XPhoneBERT 用作输入音素编码器,可以显著提高强神经 TTS 模型的自然度和韵律性,并且有助于在有限的训练数据下产生高质量的语音。我们公开发布了预训练的 XPhoneBERT,希望能促进未来多语言下游 TTS 应用研究。