Feb, 2024

基于扩散的文本转语音模型的语义潜空间

TL;DR在语音合成领域中,噪声扩散模型(Denoising Diffusion Models,DDMs)的整合应用日益增多。尽管其音频质量出色,但其语义能力的程度未知,并且控制其合成语音的音色属性仍然具有挑战性。受到图像合成的最新进展的启发,我们探索了冻结 TTS 模型的潜在空间,该空间由 DDM 的降噪器的潜在瓶颈激活组成。我们发现这个空间包含丰富的语义信息,并提出了一些新方法来在其中找到语义方向,包括有监督和无监督的方法。然后,我们演示了如何利用这些方法进行即插即用的音频编辑,无需进一步训练、架构更改或数据要求。我们提供了编辑音频的语义和声学质量的证据,并提供了补充样本:[链接]。