Jun, 2021

CRASH: 基于原始音频评分的生成式建模,用于可控的高分辨率鼓声合成

TL;DR本文提出了一种基于得分的生成模型,利用扩散过程建模和条件U-Net逼近得分函数实现音频合成。该方法可以以高分辨率44.1kHz可控生成短小的打击声音,并且适用于多种采样方案,包括类条件采样和杂交声音生成。相比其他基于GAN的方法,该方法模型轻便、易于训练。