Nov, 2022

ERNIE-SAT: 跨语言多说话人文本转语音的语音和文本联合预训练

TL;DR在跨语言场景中进行了语音表示学习的探索,提出了语音文本联合预训练框架,通过学习重构不同语言的输入来进行预训练,取得了在多语言场景下优于基于说话人嵌入的多说话人 TTS 方法的成果。