Jan, 2024

自适应的自监督语音表示模型条件下的抗噪零样本语音合成

TL;DR基于自监督学习的说话人嵌入提取的零样本文本到语音方法可以非常准确地再现说话人的特征。然而,当参考语音包含噪声时,这种方法的语音合成质量会降低。本文中,我们提出了一种噪声鲁棒的零样本文本到语音方法。我们将适配器融入自监督学习模型中,并使用带噪声的参考语音对其进行微调,同时采用了语音增强前端以进一步提高性能。通过客观和主观评估,我们证实了所提出方法对参考语音中的噪声具有很高的鲁棒性,并且与语音增强相结合有效地工作。