Apr, 2024

潜在扩散的长篇音乐生成

TL;DR通过对长时态上下文的生成模型进行训练,我们展示了可以产生长达 4 分 45 秒的音乐的可能性。我们的模型是在高度降采样的连续潜在表示(潜在速率为 21.5Hz)上操作的扩散变换器,根据音频质量和提示对齐的指标获得了最先进的生成结果,主观测试表明它能产生具有连贯结构的完整音乐。