StemGen: 一种音乐生成模型

Dec, 2023

StemGen: A music generation model that listens

Julian D. Parker, Janne Spijkervet, Katerina Kosta, Furkan Yesiler, Boris Kuznetsov...

TL;DR使用深度学习技术的音乐音频的端到端生成最近有很大活动。本文提出了一种替代范式，用于生成能够听取和响应音乐上下文的音乐生成模型。使用非自回归、基于 Transformer 的模型架构构建了这样一个模型，并提出了一系列新颖的架构和采样改进方法。我们在开源和专有数据集上训练了这个描述的架构。我们使用标准质量度量和基于音乐信息检索描述符的新方法来评估生成的模型。所得到的模型在音频质量上达到了最先进的基于文本的模型水平，并且在音乐连贯性方面表现出很强的上下文关联性。

Abstract

end-to-end generation of musical audio using deep learning techniques has seen an explosion of activity recently. However, most models con

end-to-end generation musical audio deep learning techniques music generation models transformer-based model architecture

发现论文，激发创造

互动背景下的音乐生成调查

近年来，机器学习，特别是生成对抗神经网络（GANs）和基于注意力的神经网络（transformers），已成功用于作曲和生成音乐，包括旋律和多声部作品。然而，现有研究主要集中在风格复制和转换的问题上，并未涉及到人机共同创作和评估。本文综述了音乐表征、特征分析、启发式算法、统计和参数建模，人类和自动化评估措施，并讨论了哪种方法和模型最适合于实时互动。

Feb, 2024

简单且可控的音乐生成

本文介绍了 MusicGen 这个单一语言模型，能够生成高质量的音乐样本，实现对文本描述或旋律特征的有条件创作，并经过广泛的实证评估，表明其在标准的文本到音乐基准上优于其他模型。

Jun, 2023

潜在扩散的长篇音乐生成

通过对长时态上下文的生成模型进行训练，我们展示了可以产生长达 4 分 45 秒的音乐的可能性。我们的模型是在高度降采样的连续潜在表示（潜在速率为 21.5Hz）上操作的扩散变换器，根据音频质量和提示对齐的指标获得了最先进的生成结果，主观测试表明它能产生具有连贯结构的完整音乐。

Apr, 2024

音乐的深度学习

本研究尝试使用深度神经网络建立生成模型，以生成既有和声和旋律，并且足以通过人类作曲的音乐，并利用端到端学习和生成的方法。

Jun, 2016

实现逼真音乐生成的挑战：在规模上对原始音频进行建模

本文探讨了采用自回归离散自编码器（ADAs）来模拟音乐块之间的长期依赖关系的方法，实现了在原始音频域中生成具有风格一致性的钢琴音乐。

Jun, 2018

通过潜在扩散实现低音伴奏生成

我们提出了一种新颖的可控制系统，用于生成与任意输入音轨相匹配的单音轨，核心是音频自编码器有效地压缩音频波形样本成可逆的潜在表示，并且条件化的潜在扩散模型以输入音轨的潜在编码生成对应音轨的潜在编码，为了提供对生成样本音色的控制，我们引入了一种在扩散采样期间将潜在空间与用户提供的参考样式进行关联的技术，为了进一步提高音频质量，我们使用无分类器引导的方法避免在生成无界潜在空间时出现失真，我们使用配对的音轨混合组成的数据集对模型进行训练，定量实验证明，给定输入音轨，所提出的系统能够生成用户指定音色的低音线，我们的可控条件音频生成框架在帮助音乐制作方面迈出了重要的一步。

Feb, 2024

为结构化自动音乐生成模型调整深度生成原始音频模型

本文提出了一种将深度学习中的原始音频模型和符号模型相结合的音乐自动生成方法，使用 LSTM 网络学习音乐的旋律结构，再将符号生成作为 WaveNet 原始音频生成器的条件输入，从而生成出有结构且听起来逼真的音乐。

Jun, 2018

流行音乐变压器：基于节拍的建模和生成富有表现力的流行钢琴作品

本文提出将乐谱数据表示成具有韵律结构的形式，通过开发更好的数据输入方式，我们建立了一个节奏更流畅的 Pop 钢琴音乐生成模型 - Pop Music Transformer。

Feb, 2020

DeepJ: 风格特定音乐生成

本文引入了 DeepJ 这一端到端的生成模型，能够在特定的作曲家风格混合条件下进行音乐创作；该模型包括学习音乐风格和音乐动力学等多种创新方法，通过人类评价表明该模型在风格迁移方面优于 Biaxial LSTM 方法。

Jan, 2018

在音乐生成的持续数据集扩充中融入音乐知识

本文提出了一种在数据来源有限的情况下为任何音乐生成系统进行数据集扩充的方法，称为 Aug-Gen，其使用的核心思想是通过系统训练期间产生的高质量和多样化的样本来增强生成系统的训练数据，然后应用于 J.S. Bach 风格的变换器合唱生成，显示出更好的生成输出。

Jun, 2020