Sep, 2023

通过基于流的语音转换进行跨语言知识蒸馏,用于稳健的多语言文本到语音转换

TL;DR该研究提出了一个跨语言语音合成框架,包括上游声码转换模型和下游文本转语音模型。通过在四个阶段中使用声码转换模型将目标语音转换为目标说话人的声音、联合目标语言的语言特征和持续时间进行单一说话人声学模型的训练以及设计一种与地区无关的波形合成器等方法,我们的评估表明这种方法优于现有的基于多语言训练模型的方法,并在不同的模型结构、语言、说话人和数据量方面展现出其鲁棒性,尤其适用于资源匮乏环境。