MelodyGLM：多任务符号化旋律生成的预训练

Sep, 2023

MelodyGLM：多任务符号化旋律生成的预训练

MelodyGLM: Multi-task Pre-training for Symbolic Melody Generation

Xinda Wu, Zhijie Huang, Kejun Zhang, Jiaxing Yu, Xu Tan...

TL;DR该研究提出了 MelodyGLM，一个多任务预训练框架，用于生成带有长期结构的旋律。研究使用 melodic n-gram 和长跨度抽样策略来创建本地和全局填充任务，以建模旋律中的本地和全局结构。研究还构建了一个包含超过 40 万旋律片段的大规模符号旋律数据集，用于大规模预训练和领域特定的 n-gram 词典构建。主观和客观评估结果表明，MelodyGLM 超过了标准和之前的预训练方法，在旋律连续性、节奏性、结构性和整体质量方面都取得了显著改进。值得注意的是，MelodyGLM 在旋律填充任务上几乎与人类创作的旋律的质量相媲美。

Abstract

pre-trained language models have achieved impressive results in various music understanding and generation tasks. However, existing pre-training methods for symbolic melody generation struggle to capture multi-sc

pre-trained language models melody generation multi-task pre-training melodic n-gram symbolic melody datasets

发现论文，激发创造

基于生成式预训练的旋律转录

利用 Jukebox 描述音频数据，并结合新数据集进行模型训练，在旋律转录方面取得了令人瞩目的进展，从而实现了直接从音频转录可阅读的乐谱的 Sheet Sage 系统。

Dec, 2022

SongComposer: 歌曲生成中用于歌词和旋律创作的大型语言模型

SongComposer 是一种创新的基于 LLM 的歌曲作曲技术，通过利用 LLM 的能力来理解和生成具有象征性歌曲表示的旋律和歌词，通过符号化歌曲表示的方式，使 LLM 能够像人类一样明确地作曲，通过 SongCompose-PT 预训练数据集的收集和充分的预训练，SongComposer 在歌词到旋律生成、旋律到歌词生成、歌曲延续和文本到歌曲创作等领域展现出优越的性能。

Feb, 2024

通过分层音乐结构表示实现可控的深度旋律生成

本文介绍了 MusicFrameworks，这是一种基于深度学习的分层音乐结构表示方法；并提出了一种多步骤的生成过程，根据长期重复结构、和弦、旋律轮廓和节奏约束生成完整的旋律。研究结果表明，其中一半的旋律比起 POP909 数据集中由人类作曲家创作的音乐更好或同样好。

Sep, 2021

MidiBERT-Piano: 大规模符号音乐理解的预训练

该研究使用 BERT 的掩蔽语言建模方法尝试预训练一个 12 层 Transformer 模型，用于处理 4166 个多音乐器 MIDI 文件，以解决一些基于符号领域的音乐理解任务，并发现预训练仍然有效。

Jul, 2021

用于符号旋律生成的分层循环神经网络

本文介绍了一种分层递归神经网络用于创作旋律的方法，该方法通过多个 LSTM 子网络从粗到细逐层生成小节结构、节奏结构和音符，通过两个人类行为实验证明了这种结构相对于单层 LSTM 和现有的 MIdiNet 和 MusicVAE 模型更适合创作旋律。

Dec, 2017

置换不变语言模型生成交响乐

提出了一种置换不变的语言模型 SymphonyNet 作为符号交响乐音乐生成的解决方案，使用基于 Transformer 的自回归语言模型和具有特定 3D 位置嵌入的 MMR 表示来建模音乐序列。为解决额外长的交响乐符号建模时的长度溢出问题，引入了一种修改后的字节对编码算法（Music BPE），并提出了一种新的线性变换器解码器架构作为主干，同时通过屏蔽输入中的乐器信息来训练解码器学习自动管弦乐。同时，引入了一个用于符号交响乐的大规模数据集，实验结果表明，所提出的方法是多轨多乐器符号音乐生成的先锋解决方案。

May, 2022

MusicBERT: 基于大规模预训练的符号音乐理解

本文介绍了如何用预训练模型 MusicBERT 进行符号音乐理解，并讨论了其中涉及的关键技术，包括 OctupleMIDI 编码和小节层面的掩蔽策略。实验证明，MusicBERT 在旋律完成、伴奏建议、流派、和风格分类等四项任务中具有优越性。

Jun, 2021

N-Gram 无监督复合和特征注入以提升符号音乐理解能力

应用深度学习技术对符号音乐进行理解的第一步是将音乐作品（主要是 MIDI 格式）转换为预定义令牌的序列，如音符音高、音符速度和和弦。然后，将这些序列输入神经序列模型以完成特定任务。在本文中，我们提出了一种新的方法 ——NG-Midiformer，用于理解符号音乐序列，该方法利用了 N-gram 方法。我们的方法首先使用我们提出的无监督复合法将音乐作品处理成类似单词的序列，然后使用我们的 N-gram Transformer 编码器，该编码器能够有效地融合 N-gram 信息，以增强用于更好理解音乐序列的主要编码器部分。大规模音乐数据集上的预训练过程使模型能够深入学习包含在音乐序列中的 N-gram 信息，并在微调阶段应用此信息进行推理。实验证明了我们方法的有效性，并在一系列音乐理解下游任务中实现了最先进的性能。

Dec, 2023

通过微调语言模型实现以旋律为条件的歌词生成，并配合 ChatGPT 进行评估

我们利用基于字符级的语言模型来从符号化旋律生成音节级歌词，通过对一个字符级预训练模型进行微调，将语言知识整合到音节级 Transformer 生成器的束搜索中。通过基于 ChatGPT 的评估，我们展示了生成歌词时的增强一致性和正确性。

Oct, 2023

从歌词中生成神经元旋律

本文提出了一种基于序列到序列框架，利用神经编码器和分层解码器，结合自然语言和旋律创作音乐曲调及准确标定的模型，并在 18,451 首流行歌曲中的歌词 - 旋律匹配对上进行了实验，论文通过人工评估证明了模型生成的旋律比基线模型更优秀。

Sep, 2018