Jan, 2024

DITTO: 音乐生成的扩散以及推理时间下的T优化

TL;DR我们提出了逆向传播推理时间T优化(DITTO)的框架,用于通过优化初始噪声潜变量来控制预训练的文本到音乐传播模型,实现目标(风格化)输出。我们的方法可以通过优化任何可微分的特征匹配损失来实现音乐生成的广泛应用,包括填充、扩展、循环以及强度、旋律和音乐结构的控制 - 且无需微调基础模型。与相关的训练、引导和基于优化的方法相比,我们的方法在几乎所有任务上均取得了最先进的性能,包括在可控性、音频质量和计算效率方面优于相似方法,从而为高质量、灵活、无需训练的传播模型控制打开了大门。具体的声音示例可以在此链接中找到