基于潜在扩散的多源音乐生成
本文提出了一种基于预训练变分自编码器的离散领域参数化的扩散模型训练技术, 用于离散和连续领域的生成导致更优结果, 并在应用于符号音乐领域时表现出很强的无条件生成和条件填充结果,相比基于自回归语言模型的连续嵌入操作更具可行性。
Mar, 2021
本研究探索了扩散模型在生成音乐方面的潜力,提出了一种级联的潜在扩散方法来根据文本描述生成高质量的立体声音乐,同时开源相关代码和音频样本以促进领域内未来研究。
Jan, 2023
介绍了 MeLoDy,一种基于 LM 引导扩散模型,可以高效地生成音乐音频,并同时减少音乐 LM 中 95.7% 或 99.6% 的前向处理,实现了可持续且具有良好音质和文本相关性的音乐生成。
May, 2023
通过将矢量量化变分自编码器(VQ-VAE)与离散扩散模型结合,我们提出了一种生成具有目标作曲家风格的符号音乐的方法,结果表明,我们的模型在满足给定条件的情况下以72.36%的高准确率生成符号音乐。
Oct, 2023
我们提出了一种新颖的可控制系统,用于生成与任意输入音轨相匹配的单音轨,核心是音频自编码器有效地压缩音频波形样本成可逆的潜在表示,并且条件化的潜在扩散模型以输入音轨的潜在编码生成对应音轨的潜在编码,为了提供对生成样本音色的控制,我们引入了一种在扩散采样期间将潜在空间与用户提供的参考样式进行关联的技术,为了进一步提高音频质量,我们使用无分类器引导的方法避免在生成无界潜在空间时出现失真,我们使用配对的音轨混合组成的数据集对模型进行训练,定量实验证明,给定输入音轨,所提出的系统能够生成用户指定音色的低音线,我们的可控条件音频生成框架在帮助音乐制作方面迈出了重要的一步。
Feb, 2024
该论文将多源扩散模型推广到任意时域扩散模型,基于文本嵌入来训练这些模型,实现了有机的音乐生成和声音分离,且在松散数据设置下展示出竞争力的生成和分离结果。
Mar, 2024
通过对长时态上下文的生成模型进行训练,我们展示了可以产生长达4分45秒的音乐的可能性。我们的模型是在高度降采样的连续潜在表示(潜在速率为21.5Hz)上操作的扩散变换器,根据音频质量和提示对齐的指标获得了最先进的生成结果,主观测试表明它能产生具有连贯结构的完整音乐。
Apr, 2024
介绍了基于深度生成模型的音乐生成方法Diff-A-Riff,可通过音频参考、文本提示或两者控制,生成适应任何音乐背景的高质量器乐伴奏,并在48kHz伪立体声音频的基础上显著减少推断时间和内存使用。
Jun, 2024
本研究解决现有音乐生成模型在生成丰富旋律时存在的不足,提出了一种多源潜在扩散模型(MSLDM),通过变分自编码器(VAE)有效捕捉每个乐器源独特特征。研究表明,该模型在音乐生成的整体和部分性能上显著优于传统模型,具有更好的音质和可用性。
Sep, 2024