ACLMar, 2022

基于发音学特征的低资源文本转语音语言无关元学习

TL;DR通过使用来自发音矢量而非语音学单元的嵌入来学习跨语言的音素表示,结合语言无关的元学习,使得我们只需要 30 分钟的语音数据即可在以前从未见过的语言中,通过微调高质量的文本转语音模型,并由以前未见过的发言者发音。