基于潜在扩散的多源音乐生成

Sep, 2024

Multi-Source Music Generation with Latent Diffusion

Zhongweiyang Xu, Debottam Dutta, Yu-Lin Wei, Romit Roy Choudhury

TL;DR本研究解决了现有音乐生成模型无法生成丰富旋律的问题，并提出采用变分自编码器的多源潜在扩散模型（MSLDM）。该方法通过对每个乐器源进行独立编码，显著提高了音乐生成的质量和效率，实验结果表明，MSLDM优于现有的多源扩散模型（MSDM）。

Abstract

Most Music Generation models directly generate a single music mixture. To allow for more flexible and controllable generation, the Multi-Source Diffusion Model (MSDM) has been proposed to model music as a mixture of multiple instrumental sources (e.g. piano, drums, bass, and guitar). I

发现论文，激发创造

使用扩散模型生成符号音乐

本文提出了一种基于预训练变分自编码器的离散领域参数化的扩散模型训练技术, 用于离散和连续领域的生成导致更优结果, 并在应用于符号音乐领域时表现出很强的无条件生成和条件填充结果，相比基于自回归语言模型的连续嵌入操作更具可行性。

Mar, 2021

Moûsai: 长上下文潜在扩散的文本生成音乐

本研究探索了扩散模型在生成音乐方面的潜力，提出了一种级联的潜在扩散方法来根据文本描述生成高质量的立体声音乐，同时开源相关代码和音频样本以促进领域内未来研究。

Jan, 2023

高效神经音乐生成

介绍了 MeLoDy，一种基于 LM 引导扩散模型，可以高效地生成音乐音频，并同时减少音乐 LM 中 95.7% 或 99.6% 的前向处理，实现了可持续且具有良好音质和文本相关性的音乐生成。

May, 2023

使用向量量化离散扩散模型进行特定作曲家风格的符号音乐生成

通过将矢量量化变分自编码器（VQ-VAE）与离散扩散模型结合，我们提出了一种生成具有目标作曲家风格的符号音乐的方法，结果表明，我们的模型在满足给定条件的情况下以72.36%的高准确率生成符号音乐。

Oct, 2023

通过潜在扩散实现低音伴奏生成

我们提出了一种新颖的可控制系统，用于生成与任意输入音轨相匹配的单音轨，核心是音频自编码器有效地压缩音频波形样本成可逆的潜在表示，并且条件化的潜在扩散模型以输入音轨的潜在编码生成对应音轨的潜在编码，为了提供对生成样本音色的控制，我们引入了一种在扩散采样期间将潜在空间与用户提供的参考样式进行关联的技术，为了进一步提高音频质量，我们使用无分类器引导的方法避免在生成无界潜在空间时出现失真，我们使用配对的音轨混合组成的数据集对模型进行训练，定量实验证明，给定输入音轨，所提出的系统能够生成用户指定音色的低音线，我们的可控条件音频生成框架在帮助音乐制作方面迈出了重要的一步。

Feb, 2024

快速时序条件下的音频扩散

利用文本提示生成长篇44.1kHz立体声音频的计算效率较高，利用条件生成模型、稳定音频技术和潜在变化等方法，可以以较快速度生成出拥有结构和立体声音效的音乐。

Feb, 2024

文本条件下音乐扩散模型的广义多源推理

该论文将多源扩散模型推广到任意时域扩散模型，基于文本嵌入来训练这些模型，实现了有机的音乐生成和声音分离，且在松散数据设置下展示出竞争力的生成和分离结果。

Mar, 2024

潜在扩散的长篇音乐生成

通过对长时态上下文的生成模型进行训练，我们展示了可以产生长达4分45秒的音乐的可能性。我们的模型是在高度降采样的连续潜在表示（潜在速率为21.5Hz）上操作的扩散变换器，根据音频质量和提示对齐的指标获得了最先进的生成结果，主观测试表明它能产生具有连贯结构的完整音乐。

Apr, 2024

Diff-A-Riff: 音乐伴奏共创技术基于潜在扩散模型

介绍了基于深度生成模型的音乐生成方法Diff-A-Riff，可通过音频参考、文本提示或两者控制，生成适应任何音乐背景的高质量器乐伴奏，并在48kHz伪立体声音频的基础上显著减少推断时间和内存使用。

Jun, 2024

基于潜在扩散的多源音乐生成

本研究解决现有音乐生成模型在生成丰富旋律时存在的不足，提出了一种多源潜在扩散模型（MSLDM），通过变分自编码器（VAE）有效捕捉每个乐器源独特特征。研究表明，该模型在音乐生成的整体和部分性能上显著优于传统模型，具有更好的音质和可用性。

Sep, 2024