Feb, 2024

零样本无监督的基于文本的音频编辑使用 DDPM 逆转

TL;DR使用预训练的大型模型以零样本方式编辑信号已在图像领域取得快速发展,而这一浪潮尚未触及音频领域。本文探讨了两种用于音频信号的零样本编辑技术,利用预训练扩散模型上的 DDPM 反演。第一种技术从图像领域引入,允许基于文本进行编辑。第二种方法是一种无监督发现语义有意义的编辑方向的新方法。将其应用于音乐信号时,该方法展示出一系列在音乐上有趣的修改,从控制特定乐器的参与到对旋律的即兴演奏。示例可在本文的示例页面(https URL)上找到,代码可在这个 https URL 找到。