Feb, 2024

通过简化的自监督语音表示实现低资源跨领域歌唱声音合成

TL;DR本文提出了一种仅使用文本和语音数据训练的多说话人声音合成模型 Karaoker-SSL,它是一个低资源流程,不需要使用任何歌唱数据,因为它的声码器也是在语音数据上训练的。通过无监督方式,Karaoker-SSL 通过自监督语音表示对其进行调节。为了在训练过程中间接指导条件模块捕捉风格信息,使用了一个基于 Conformer 的模块,该模块从声学模型的输出中预测音高。因此,Karaoker-SSL 允许进行歌声合成而不依赖于手工制作的专门领域特征。此外,它不需要文本对齐或歌词时间戳。为了改善声音质量,我们采用了一个以目标说话人为条件的 U-Net 鉴别器,并采用了 Diffusion GAN 训练方案。