基于级联扩散模型的符号音乐整曲层次生成

ICLRMay, 2024

基于级联扩散模型的符号音乐整曲层次生成

Whole-Song Hierarchical Generation of Symbolic Music Using Cascaded Diffusion Models

Ziyu Wang, Lejun Min, Gus Xia

TL;DR本文提出了基于组成层次结构实现完整音乐作品建模的方法，通过定义一种分层语言对流行歌曲的符号化表示进行建模。通过级联扩散模型训练了分层语言模型，实验证明该模型能够生成具有可识别的全局歌词 - 副歌结构和协调音的完整音乐作品，且音乐质量高于基准模型。此外，还展示了该模型具有灵活的可控性，用户可以通过从可解释的分层语言中采样或调整预训练的外部表示来控制音乐的流动。

Abstract

Recent deep music generation studies have put much emphasis on long-term generation with structures. However, we are yet to see high-quality, well-structured whole-song generation. In this paper, we make the first attempt to model a full music piece under the realization of

deep music generation compositional hierarchy symbolic representations cascaded diffusion model music quality

发现论文，激发创造

通过分层音乐结构表示实现可控的深度旋律生成

本文介绍了 MusicFrameworks，这是一种基于深度学习的分层音乐结构表示方法；并提出了一种多步骤的生成过程，根据长期重复结构、和弦、旋律轮廓和节奏约束生成完整的旋律。研究结果表明，其中一半的旋律比起 POP909 数据集中由人类作曲家创作的音乐更好或同样好。

Sep, 2021

Moûsai: 长上下文潜在扩散的文本生成音乐

本研究探索了扩散模型在生成音乐方面的潜力，提出了一种级联的潜在扩散方法来根据文本描述生成高质量的立体声音乐，同时开源相关代码和音频样本以促进领域内未来研究。

Jan, 2023

符号音乐生成中的结构建模：图案、短语与更多

模拟音乐结构在生成符号音乐作品的人工智能系统中至关重要但具有挑战性。本文概述了整合连贯结构的技术的演变，从符号方法到基础和转换的深度学习方法，利用计算和数据在各种训练范式中的强大能力。最新阶段，我们评述了一种新兴技术，称为 “子任务分解”，它涉及将音乐生成分解为独立的高级结构规划和内容创作阶段。这些系统通过提取旋律的骨架或结构模板来引导生成过程，从而纳入某种形式的音乐知识或神经符号方法。从审查的三个时期来看，已经取得了在主题和重复方面的进展，但在模拟人类作曲家风格下的扩展音乐作品中细微主题的发展仍然很困难。我们概述了几个关键的未来方向，以实现结合所有考察时期方法的协同效益。

Mar, 2024

深度神经网络明确结构编码对符号音乐生成的影响

本研究探讨了在给定和弦进行约束下解决旋律生成问题的方法，并比较了 LSTM（一种 RNN）和 WaveNet（扩张时间 - CNN）两种序列生成模型，结果显示使用扩张卷积层更显式地编码结构可以显著提高性能，而将基础和弦进行全局编码则更有提升效果。

Nov, 2018

基于图的多音轨音乐生成

该论文在音乐生成的深度学习系统中引入了一种新颖的图表示方法和深度变分自编码器，将音乐的结构和内容分开生成，实现了更具层次结构的人机交互音乐创作方式。

Jul, 2023

潜在扩散的长篇音乐生成

通过对长时态上下文的生成模型进行训练，我们展示了可以产生长达 4 分 45 秒的音乐的可能性。我们的模型是在高度降采样的连续潜在表示（潜在速率为 21.5Hz）上操作的扩散变换器，根据音频质量和提示对齐的指标获得了最先进的生成结果，主观测试表明它能产生具有连贯结构的完整音乐。

Apr, 2024

DiffDance: 舞蹈生成的级联人体运动扩散模型

将音乐与运动结合的 DiffDance 模型能够生成与输入音乐有效对齐的逼真舞蹈序列，结果与最先进的自回归方法相媲美。

Aug, 2023

情绪控制下的快速扩散生成对抗网络模型用于符号音乐生成

我们提出了将扩散模型与生成对抗网络相结合的方法，旨在解决算法音乐生成中的情感控制和计算成本的问题。通过训练变分自编码器得到情感标签的符号音乐数据集的嵌入，并用其来训练扩散模型，我们成功地控制了扩散模型以生成具有特定情感的符号音乐，同时大幅提升了计算效率。

Oct, 2023

复合词变压器：学习在动态有向超图上组合全歌曲音乐

该论文提出了一种新型 Transformer 解码器架构，其用于不同的前馈头来模拟不同类型的 tokens，以及一种扩展 - 压缩技巧将邻近的 tokens 分组成复合单词的序列，表现出比现有模型更快和同等质量的学习能力.

Jan, 2021

使用扩散模型生成符号音乐

本文提出了一种基于预训练变分自编码器的离散领域参数化的扩散模型训练技术，用于离散和连续领域的生成导致更优结果，并在应用于符号音乐领域时表现出很强的无条件生成和条件填充结果，相比基于自回归语言模型的连续嵌入操作更具可行性。

Mar, 2021