Feb, 2024

通过潜在扩散实现低音伴奏生成

TL;DR我们提出了一种新颖的可控制系统,用于生成与任意输入音轨相匹配的单音轨,核心是音频自编码器有效地压缩音频波形样本成可逆的潜在表示,并且条件化的潜在扩散模型以输入音轨的潜在编码生成对应音轨的潜在编码,为了提供对生成样本音色的控制,我们引入了一种在扩散采样期间将潜在空间与用户提供的参考样式进行关联的技术,为了进一步提高音频质量,我们使用无分类器引导的方法避免在生成无界潜在空间时出现失真,我们使用配对的音轨混合组成的数据集对模型进行训练,定量实验证明,给定输入音轨,所提出的系统能够生成用户指定音色的低音线,我们的可控条件音频生成框架在帮助音乐制作方面迈出了重要的一步。