解锁预训练音乐语言模型的潜力以实现多轨音乐编排的多功能性

Aug, 2024

解锁预训练音乐语言模型的潜力以实现多轨音乐编排的多功能性

Unlocking Potential in Pre-Trained Music Language Models for Versatile Multi-Track Music Arrangement

Longshen Ou, Jingwei Zhao, Ziyu Wang, Gus Xia, Ye Wang

TL;DR本研究解决了如何有效利用预训练的大型音乐语言模型进行可控音乐编排的挑战。我们提出了一种统一的序列到序列框架，使符号音乐语言模型能够在多种编排任务中进行微调，显著提高了音乐质量。这一工作不仅拓宽了音乐生成的应用范围，还证明了预训练阶段为模型提供了理解音乐条件的关键知识。

Abstract

Large language models have shown significant capabilities across various domains, including Symbolic Music Generation. However, leveraging these pre-trained models for controllable music arrangement tasks, each requiring different forms of musical information as control, remains a nove

发现论文，激发创造

建模高维序列中的时间依赖关系: 应用于复调音乐生成和转录

研究利用基于分布估计器的递归神经网络的概率模型来建模多声部音乐的问题，可以提高多声部转录的准确性。

Jun, 2012

FIGARO：以细粒度艺术控制生成符号音乐

本文提出了自监督的描述-序列生成任务，该任务可以在全局层次上精细地控制生成的序列，具有很强的推理偏差，并将高层级特征与领域知识相结合，在符号音乐生成方面实现了最先进的结果。

Jan, 2022

MelodyGLM：多任务符号化旋律生成的预训练

该研究提出了MelodyGLM，一个多任务预训练框架，用于生成带有长期结构的旋律。研究使用melodic n-gram和长跨度抽样策略来创建本地和全局填充任务，以建模旋律中的本地和全局结构。研究还构建了一个包含超过40万旋律片段的大规模符号旋律数据集，用于大规模预训练和领域特定的n-gram词典构建。主观和客观评估结果表明，MelodyGLM超过了标准和之前的预训练方法，在旋律连续性、节奏性、结构性和整体质量方面都取得了显著改进。值得注意的是，MelodyGLM在旋律填充任务上几乎与人类创作的旋律的质量相媲美。

Sep, 2023

面向音乐大语言模型的基于内容的控制

我们介绍了Coco-Mulla，这是一种用于音乐大型语言模型的基于内容的控制方法，通过参数高效的微调方法进行训练，在使用少于300首歌曲的小数据集进行调整时，相比于原始模型，使用了不到4%的参数。我们的方法实现了高质量的音乐生成，并通过和文本描述结合，展示了灵活的音乐变体生成和风格转换。

Oct, 2023

通过基于内容的控制，进行可定向的长期音乐音频生成和编辑

可控音乐生成对于人工智能与人类共创音乐至关重要。大型语言模型在生成高质量音乐方面表现出了潜力，但其自回归生成的特性限制了其在音乐编辑任务中的实用性。为了弥合这一差距，我们引入了一种新颖的参数高效微调（PEFT）方法，通过此方法，自回归语言模型可以无缝地解决音乐修复任务。此外，我们的PEFT方法结合了基于帧级内容的控制，便于音轨调节的音乐细化和谱面调节的音乐编排。我们将此方法应用于优化MusicGen，一种领先的自回归音乐生成模型。我们的实验在多个音乐编辑任务中显示了有希望的结果，为未来的AI驱动音乐编辑工具提供了更灵活的控制。我们的工作演示页面和源代码可以在线上获取。

Feb, 2024

符号音乐生成中的结构建模：图案、短语与更多

模拟音乐结构在生成符号音乐作品的人工智能系统中至关重要但具有挑战性。本文概述了整合连贯结构的技术的演变，从符号方法到基础和转换的深度学习方法，利用计算和数据在各种训练范式中的强大能力。最新阶段，我们评述了一种新兴技术，称为“子任务分解”，它涉及将音乐生成分解为独立的高级结构规划和内容创作阶段。这些系统通过提取旋律的骨架或结构模板来引导生成过程，从而纳入某种形式的音乐知识或神经符号方法。从审查的三个时期来看，已经取得了在主题和重复方面的进展，但在模拟人类作曲家风格下的扩展音乐作品中细微主题的发展仍然很困难。我们概述了几个关键的未来方向，以实现结合所有考察时期方法的协同效益。

Mar, 2024

MuPT: 一个生成式的符号音乐预训练Transformer

本文探讨了大型语言模型（LLMs）在音乐的预训练中的应用。研究发现，LLMs与ABC记谱法更加兼容，提高了音乐创作模型的性能。为了解决不同音轨间的错位问题，我们提出了一种名为Synchronized Multi-Track ABC Notation（SMT-ABC Notation）的方法，旨在保持多个音乐音轨之间的一致性。我们的贡献包括一系列能够处理8192个标记的模型，覆盖了训练集中90％的符号音乐数据。此外，我们还研究了符号音乐缩放定律（SMS Law）对模型性能的影响。研究结果表明了音乐生成领域未来研究的一个有前途的方向，并通过我们的开源贡献为社区主导的研究提供了丰富的资源。

Apr, 2024

SYMPLEX: 使用单纯形扩散和词汇先验进行可控符号音乐生成

我们提出了一种基于单纯扩散的快速可控符号音乐生成新方法，该方法与自然语言处理领域的目标相结合，应用于使用无序表示生成4小节多乐器音乐循环。我们展示了我们的模型可以通过词汇先验进行驾驭，从而在音乐生成过程中提供了可观的控制水平，例如，填充时间和音高以及选择乐器，而无需特定任务的模型适应或应用外在控制。

May, 2024

MuseBarControl: 通过预训练和反事实损失增强符号音乐生成中的细粒度控制

通过创新的预训练任务和反事实损失，我们提出了两种解决方案，以显著改善对乐曲生成的小节级控制能力，相较于传统方法，我们的方法在这方面取得了13.06%的改善，同时不损害原始预训练生成模型的音乐质量。

Jul, 2024

大型语言模型在音乐中能否“推理”？对其音乐理解与生成能力的评估

研究针对大型语言模型（LLMs）在符号音乐理解和生成方面的表现进行了深入分析，发现它们在复杂音乐任务中存在多步推理能力不足的问题。该论文提出，当前LLMs在音乐知识的运用上存在局限，建议未来研究应注重弥合音乐知识与推理之间的鸿沟，以提升音乐创作者的协作体验。

Jul, 2024