高效神经音乐生成

May, 2023

Efficient Neural Music Generation

Max W. Y. Lam, Qiao Tian, Tang Li, Zongyu Yin, Siyuan Feng...

TL;DR介绍了 MeLoDy，一种基于 LM 引导扩散模型，可以高效地生成音乐音频，并同时减少音乐 LM 中 95.7% 或 99.6% 的前向处理，实现了可持续且具有良好音质和文本相关性的音乐生成。

Abstract

Recent progress in music generation has been remarkably advanced by the state-of-the-art MusicLM, which comprises a hierarchy of three LMs, respectively, for semantic, coarse acoustic, and fine acoustic modelings. Yet, sampling with the MusicLM requires processing through these LMs one

music generation lm-guided diffusion model efficient decoding dual-path diffusion semantic tokens

发现论文，激发创造

MusicLDM: 使用节奏同步混合策略增强文本生成音乐中的新颖性

通过构建一种文本到音乐模型，并利用分布式扩散模型和音频广义线性模型来进行训练以生成新音乐，解决了音乐生成过程中的数据不足、版权和抄袭等问题。同时通过节拍跟踪和两种不同的数据增强策略，即拍子同步音频混合和拍子同步潜在混合，实现对训练数据的重组，从而生成多样化且保持风格一致的音乐。最终，通过基于对比语音 - 音频预训练模型的评估指标，进一步证明了所提出的音乐生成模型和拍子同步混合策略能够提高生成音乐的质量、创新性和与输入文本的对应关系。

Aug, 2023

简单且可控的音乐生成

本文介绍了 MusicGen 这个单一语言模型，能够生成高质量的音乐样本，实现对文本描述或旋律特征的有条件创作，并经过广泛的实证评估，表明其在标准的文本到音乐基准上优于其他模型。

Jun, 2023

Moûsai: 长上下文潜在扩散的文本生成音乐

本研究探索了扩散模型在生成音乐方面的潜力，提出了一种级联的潜在扩散方法来根据文本描述生成高质量的立体声音乐，同时开源相关代码和音频样本以促进领域内未来研究。

Jan, 2023

离散扩散概率模型用于符号音乐生成

本文提出了一种使用 Discrete DDPMs (D3PMs) 直接生成 Polyphonic Symbolic Music 的方法，并展示了该模型的高质量和灵活的属性，并警示无法通过量化指标完全评估样本质量。

May, 2023

潜在扩散的长篇音乐生成

通过对长时态上下文的生成模型进行训练，我们展示了可以产生长达 4 分 45 秒的音乐的可能性。我们的模型是在高度降采样的连续潜在表示（潜在速率为 21.5Hz）上操作的扩散变换器，根据音频质量和提示对齐的指标获得了最先进的生成结果，主观测试表明它能产生具有连贯结构的完整音乐。

Apr, 2024

基于频谱扩散的多乐器音乐合成

本文介绍了利用神经合成器实时生成任意乐器和音符组合的音频，其具有互动性和表现力，使用 MIDI 序列进行训练，采用两阶段过程转换为声谱图，然后通过生成对抗网络（GAN）声谱图反演器将其转化为音频，发现 DDPM 方法在质量和重建等方面具有显著的优势。

Jun, 2022

MeLFusion: 使用扩散模型合成基于图像和语言线索的音乐

音乐综合，机器学习模型，MeLFusion，视觉信息，和 IMSM 对生成的音乐质量产生显著的影响。

Jun, 2024

情绪控制下的快速扩散生成对抗网络模型用于符号音乐生成

我们提出了将扩散模型与生成对抗网络相结合的方法，旨在解决算法音乐生成中的情感控制和计算成本的问题。通过训练变分自编码器得到情感标签的符号音乐数据集的嵌入，并用其来训练扩散模型，我们成功地控制了扩散模型以生成具有特定情感的符号音乐，同时大幅提升了计算效率。

Oct, 2023

从离散的标记到高保真音频的多频带扩散

利用高保真多带扩散模型，基于低比特率离散表示生成任何类型的音频，其感知质量比最先进的生成技术更好。

Aug, 2023

原始音乐生成的渐进蒸馏扩散

应用一种新的深度学习方法来生成原始音频文件，并使用 1D U-Net 的渐进蒸馏扩散模型实现无条件音乐生成，并比较不同扩散参数的价值和实现。

Jul, 2023