MuseBarControl: 通过预训练和反事实损失增强符号音乐生成中的细粒度控制

Jul, 2024

MuseBarControl: 通过预训练和反事实损失增强符号音乐生成中的细粒度控制

MuseBarControl: Enhancing Fine-Grained Control in Symbolic Music Generation through Pre-Training and Counterfactual Loss

HTML

PDF

Yangyang Shu, Haiming Xu, Ziqin Zhou, Anton van den Hengel, Lingqiao Liu

TL;DR通过创新的预训练任务和反事实损失，我们提出了两种解决方案，以显著改善对乐曲生成的小节级控制能力，相较于传统方法，我们的方法在这方面取得了13.06%的改善，同时不损害原始预训练生成模型的音乐质量。

Abstract

Automatically generating symbolic music-music scores tailored to specific human needs-can be highly beneficial for musicians and enthusiasts. Recent studies have shown promising results using extensive datasets and advanced transformer architectures. However, these state-of-the-art mod

发现论文，激发创造

FIGARO：以细粒度艺术控制生成符号音乐

本文提出了自监督的描述-序列生成任务，该任务可以在全局层次上精细地控制生成的序列，具有很强的推理偏差，并将高层级特征与领域知识相结合，在符号音乐生成方面实现了最先进的结果。

Jan, 2022

MusIAC：一种可扩展的、多级别控制的音乐补全应用的生成框架

我们提出了一种新的音乐生成框架，可用于音乐填充，在接近原始多轨音乐的情况下生成乐曲片段，借助使用了控制令牌的Transformer-based框架来生成具有更强的风格相似性的音乐。

Feb, 2022

MuseCoco：从文本生成符号音乐

本文介绍了MuseCoco，一种从文本描述中生成符号音乐的方法，通过将任务分解为文本到属性理解和属性到音乐生成阶段，并提供几种控制选项，使得音乐生成更具数据效率和精准控制性。

May, 2023

预测性音乐转换器

本篇论文提出了一种名为‘anticipation’的方法，可以构建一种可以被控制的时间点过程（事件过程）生成模型，并结合其他相关进程（控制进程）进行异步操作，利用大型多样化的Lakh MIDI音乐数据集进行训练，针对符号音乐生成中的控制任务进行填充来实现音乐生成，人类评估者报告此模型产生的伴奏与人类创作的音乐相似。

Jun, 2023

基于扩散的多乐器音乐合成的性能调整

在音乐信息检索（MIR）中，从符号音乐表示生成多仪器音乐是一项重要任务。本研究的主要贡献是提出通过将生成模型的条件设置为特定表演和录音环境，从而增强多仪器合成的控制能力，从而更好地引导音色和风格。通过基于最先进的扩散音乐生成模型，我们引入了性能条件化，这是一种简单的工具，表明生成模型可以合成具有特定表演所使用的特定乐器的音乐的风格和音色。我们的原型采用各种仪器的非编目表演进行评估，实现了最先进的FAD真实性评分，并允许新的音色和风格控制。我们的项目页面，包括样本和演示，可在benadar293.github.io/midipm上找到。

Sep, 2023

面向音乐大语言模型的基于内容的控制

我们介绍了Coco-Mulla，这是一种用于音乐大型语言模型的基于内容的控制方法，通过参数高效的微调方法进行训练，在使用少于300首歌曲的小数据集进行调整时，相比于原始模型，使用了不到4%的参数。我们的方法实现了高质量的音乐生成，并通过和文本描述结合，展示了灵活的音乐变体生成和风格转换。

Oct, 2023

MuPT: 一个生成式的符号音乐预训练Transformer

本文探讨了大型语言模型（LLMs）在音乐的预训练中的应用。研究发现，LLMs与ABC记谱法更加兼容，提高了音乐创作模型的性能。为了解决不同音轨间的错位问题，我们提出了一种名为Synchronized Multi-Track ABC Notation（SMT-ABC Notation）的方法，旨在保持多个音乐音轨之间的一致性。我们的贡献包括一系列能够处理8192个标记的模型，覆盖了训练集中90％的符号音乐数据。此外，我们还研究了符号音乐缩放定律（SMS Law）对模型性能的影响。研究结果表明了音乐生成领域未来研究的一个有前途的方向，并通过我们的开源贡献为社区主导的研究提供了丰富的资源。

Apr, 2024

SYMPLEX: 使用单纯形扩散和词汇先验进行可控符号音乐生成

我们提出了一种基于单纯扩散的快速可控符号音乐生成新方法，该方法与自然语言处理领域的目标相结合，应用于使用无序表示生成4小节多乐器音乐循环。我们展示了我们的模型可以通过词汇先验进行驾驭，从而在音乐生成过程中提供了可观的控制水平，例如，填充时间和音高以及选择乐器，而无需特定任务的模型适应或应用外在控制。

May, 2024

BandControlNet：基于并行变压器的可调式流行音乐生成与细粒度时空特征

可控音乐生成通过将用户的意图投射到所需音乐上，促进人类和作曲系统之间的互动。为了解决弱可控性和音乐质量不佳的问题，我们首先提出了时空特征作为强大而细粒度的控制器来增强生成模型的可控性。通过设计高效的音乐表示REMl_Track并使用Byte Pair Encoding（BPE）技术缩短每个音轨的序列长度，我们构建了多音轨音乐系统。然后，我们发布了BandControlNet，它是一种基于并行Transformer的条件模型，用于处理多个音乐序列并生成质量高的音乐样本，这些样本是基于给定的时空控制特征条件的。实验结果表明，BandControlNet在大多数客观指标上优于其他条件音乐生成模型，包括保真度和推理速度，并且在生成长音乐样本方面显示出很大的稳健性。主观评估表明，在短期数据集上训练的BandControlNet生成的音乐质量与最先进的模型相当，而在更长的数据集上明显优于它们。

Jul, 2024

解锁预训练音乐语言模型的潜力以实现多轨音乐编排的多功能性

本研究解决了如何有效利用预训练的大型音乐语言模型进行可控音乐编排的挑战。我们提出了一种统一的序列到序列框架，使符号音乐语言模型能够在多种编排任务中进行微调，显著提高了音乐质量。这一工作不仅拓宽了音乐生成的应用范围，还证明了预训练阶段为模型提供了理解音乐条件的关键知识。

Aug, 2024