Jul, 2023

HierVST: 分层自适应零样本语音风格转换

TL;DR本研究提出了一种分层适应性端到端的零样本语音风格转换模型,通过使用分层变分推断和自监督表示在仅使用语音数据集训练模型的情况下,实现了新的发声者的语音风格转换。该模型采用分层适应性生成器进行音调表示和波形音频逐步生成,利用无条件生成来提高声音相对的声学能力。实验结果表明,在零样本语音风格转换场景中,本方法优于其他语音风格转换模型。