潜在扩散的长篇音乐生成

Apr, 2024

Long-form music generation with latent diffusion

Zach Evans, Julian D. Parker, CJ Carr, Zack Zukowski, Josiah Taylor...

TL;DR通过对长时态上下文的生成模型进行训练，我们展示了可以产生长达 4 分 45 秒的音乐的可能性。我们的模型是在高度降采样的连续潜在表示（潜在速率为 21.5Hz）上操作的扩散变换器，根据音频质量和提示对齐的指标获得了最先进的生成结果，主观测试表明它能产生具有连贯结构的完整音乐。

Abstract

audio-based generative models for music have seen great strides recently, but so far have not managed to produce full-length music tracks with coherent musical structure. We show that by training a generative mod

audio-based generative models music tracks coherent musical structure generative model training long-form music

发现论文，激发创造

Moûsai: 长上下文潜在扩散的文本生成音乐

本研究探索了扩散模型在生成音乐方面的潜力，提出了一种级联的潜在扩散方法来根据文本描述生成高质量的立体声音乐，同时开源相关代码和音频样本以促进领域内未来研究。

Jan, 2023

音乐形式生成

该论文介绍了一种生成结构化的、任意长度的音乐作品的方法，其中利用条件性生成模型创建了音乐片段，并通过转换连接这些片段，然后利用大型语言模型提出音乐形式建议。

Oct, 2023

通过潜在扩散实现低音伴奏生成

我们提出了一种新颖的可控制系统，用于生成与任意输入音轨相匹配的单音轨，核心是音频自编码器有效地压缩音频波形样本成可逆的潜在表示，并且条件化的潜在扩散模型以输入音轨的潜在编码生成对应音轨的潜在编码，为了提供对生成样本音色的控制，我们引入了一种在扩散采样期间将潜在空间与用户提供的参考样式进行关联的技术，为了进一步提高音频质量，我们使用无分类器引导的方法避免在生成无界潜在空间时出现失真，我们使用配对的音轨混合组成的数据集对模型进行训练，定量实验证明，给定输入音轨，所提出的系统能够生成用户指定音色的低音线，我们的可控条件音频生成框架在帮助音乐制作方面迈出了重要的一步。

Feb, 2024

ArchiSound: 漫射生成音频

该论文研究了扩散模型在音频生成方面的应用，提出了多种模型来满足音频生成的多方面需求，并通过简化工具库加速实时推理。

Jan, 2023

快速时序条件下的音频扩散

利用文本提示生成长篇 44.1kHz 立体声音频的计算效率较高，利用条件生成模型、稳定音频技术和潜在变化等方法，可以以较快速度生成出拥有结构和立体声音效的音乐。

Feb, 2024

扩散模型与指导梯度实现可控音乐制作

我们展示了如何从扩散模型中进行条件生成，以解决音乐制作中的各种现实任务，包括音乐音频的延续、修复和再生，不同音乐轨道之间的平滑过渡以及将样式特征传递给现有音频片段。

Nov, 2023

StemGen: 一种音乐生成模型

使用深度学习技术的音乐音频的端到端生成最近有很大活动。本文提出了一种替代范式，用于生成能够听取和响应音乐上下文的音乐生成模型。使用非自回归、基于 Transformer 的模型架构构建了这样一个模型，并提出了一系列新颖的架构和采样改进方法。我们在开源和专有数据集上训练了这个描述的架构。我们使用标准质量度量和基于音乐信息检索描述符的新方法来评估生成的模型。所得到的模型在音频质量上达到了最先进的基于文本的模型水平，并且在音乐连贯性方面表现出很强的上下文关联性。

Dec, 2023

LongDanceDiff：基于条件扩散模型的长期舞蹈生成

通过设计了一种长期舞蹈生成模型，LongDanceDiff，基于条件扩散模型，在解决时间一致性和空间约束方面具有挑战性，以提高生成舞蹈动作的多样性和质量。

Aug, 2023

Diff-A-Riff: 音乐伴奏共创技术基于潜在扩散模型

介绍了基于深度生成模型的音乐生成方法 Diff-A-Riff，可通过音频参考、文本提示或两者控制，生成适应任何音乐背景的高质量器乐伴奏，并在 48kHz 伪立体声音频的基础上显著减少推断时间和内存使用。

Jun, 2024

基于级联扩散模型的符号音乐整曲层次生成

本文提出了基于组成层次结构实现完整音乐作品建模的方法，通过定义一种分层语言对流行歌曲的符号化表示进行建模。通过级联扩散模型训练了分层语言模型，实验证明该模型能够生成具有可识别的全局歌词 - 副歌结构和协调音的完整音乐作品，且音乐质量高于基准模型。此外，还展示了该模型具有灵活的可控性，用户可以通过从可解释的分层语言中采样或调整预训练的外部表示来控制音乐的流动。

May, 2024