May, 2023

使用未标注的外部数据进行对抗性发声人分离的自监督表征语音转换

TL;DR提出了一种基于声音转换技术的高相似度任意语音转换方法,该方法中使用了自监督学习方法及其提取的 SSL 输入表示,采用对抗训练机制和辅助判别器,通过外部未标注的大型语音语料库,在合成模块中成功解决了与 SSL 表示中的说话者信息与音色相似度有关的限制问题。实验结果表明,我们的方法在自然度高且相似度可比的情况下比监督方法更加灵活,同时可以推广至其他 SSL 表示作为输入的 VC 方法,而且无需大量标注数据的支持。