MusicBERT: 基于大规模预训练的符号音乐理解

ACLJun, 2021

MusicBERT: 基于大规模预训练的符号音乐理解

MusicBERT: Symbolic Music Understanding with Large-Scale Pre-Training

Mingliang Zeng, Xu Tan, Rui Wang, Zeqian Ju, Tao Qin...

TL;DR本文介绍了如何用预训练模型 MusicBERT 进行符号音乐理解，并讨论了其中涉及的关键技术，包括 OctupleMIDI 编码和小节层面的掩蔽策略。实验证明，MusicBERT 在旋律完成、伴奏建议、流派、和风格分类等四项任务中具有优越性。

Abstract

symbolic music understanding, which refers to the understanding of music from the symbolic data (e.g., MIDI format, but not audio), covers many music applications such as genre classification, emotion classification, and music pieces matching. While good music representations are benef

symbolic music understanding pre-training models musicbert octuplemidi encoding bar-level masking strategy

发现论文，激发创造

MidiBERT-Piano: 大规模符号音乐理解的预训练

该研究使用 BERT 的掩蔽语言建模方法尝试预训练一个 12 层 Transformer 模型，用于处理 4166 个多音乐器 MIDI 文件，以解决一些基于符号领域的音乐理解任务，并发现预训练仍然有效。

Jul, 2021

MuPT: 一个生成式的符号音乐预训练 Transformer

本文探讨了大型语言模型（LLMs）在音乐的预训练中的应用。研究发现，LLMs 与 ABC 记谱法更加兼容，提高了音乐创作模型的性能。为了解决不同音轨间的错位问题，我们提出了一种名为 Synchronized Multi-Track ABC Notation（SMT-ABC Notation）的方法，旨在保持多个音乐音轨之间的一致性。我们的贡献包括一系列能够处理 8192 个标记的模型，覆盖了训练集中 90％的符号音乐数据。此外，我们还研究了符号音乐缩放定律（SMS Law）对模型性能的影响。研究结果表明了音乐生成领域未来研究的一个有前途的方向，并通过我们的开源贡献为社区主导的研究提供了丰富的资源。

Apr, 2024

N-Gram 无监督复合和特征注入以提升符号音乐理解能力

应用深度学习技术对符号音乐进行理解的第一步是将音乐作品（主要是 MIDI 格式）转换为预定义令牌的序列，如音符音高、音符速度和和弦。然后，将这些序列输入神经序列模型以完成特定任务。在本文中，我们提出了一种新的方法 ——NG-Midiformer，用于理解符号音乐序列，该方法利用了 N-gram 方法。我们的方法首先使用我们提出的无监督复合法将音乐作品处理成类似单词的序列，然后使用我们的 N-gram Transformer 编码器，该编码器能够有效地融合 N-gram 信息，以增强用于更好理解音乐序列的主要编码器部分。大规模音乐数据集上的预训练过程使模型能够深入学习包含在音乐序列中的 N-gram 信息，并在微调阶段应用此信息进行推理。实验证明了我们方法的有效性，并在一系列音乐理解下游任务中实现了最先进的性能。

Dec, 2023

符号音乐的字节对编码

本文研究在深度学习任务中，如何使用符号音乐模态并采用 Byte Pair Encoding (BPE) 对音乐数据进行字符编码，以提高音乐生成和作曲家分类模型的性能和均匀度。

Jan, 2023

从单词到音乐：符号音乐生成中子词分词技术的研究

本文研究了在符号音乐生成中，应用子词分词技术（如 Byte-pair Encoding）对生成歌曲结构和长度的影响，以及与音乐生成质量指标（如结构指标，Pitch Class Entropy 等）之间的关系。结果表明子词分词技术有望改善符号音乐生成质量，尤其是在生成多轨复杂数据时具有广泛的实际应用价值。比较 BPE 和 Unigram 两种方法的结果得出，两种方法均能带来稳定的改进。

Apr, 2023

探索预训练检查点在文本生成音乐任务中的功效

本研究首次尝试使用 BERT、GPT-2 和 BART 等公开可用的预训练模型生成完整且语义连贯的音乐曲谱，实验结果表明使用预训练检查点在文本到音乐生成任务中具有显著改进。

Nov, 2022

音乐理解的有监督和无监督音频表示学习

本文提供了音频理解模型预训练策略的广泛比较分析，探讨了预训练数据集（音乐或通用音频）和预训练方法（有监督或无监督）对下游任务的影响，特别是在音乐领域的多项任务中，超大规模有人工注释的音乐数据集上训练的有监督模型实现了最先进的性能，而域限制在音乐领域的无监督模型则在某些情况下能实现优异的有监督学习和无监督学习性能，表现出较高的效率和通用性。

Oct, 2022

符号音乐生成和信息检索的自然语言处理方法：一项调查

本文是一篇调查论文，研究了将自然语言处理（NLP）方法应用于符号音乐生成和信息检索的研究，提出了符号音乐的表示方法和深度学习模型，并讨论了 NLP 工具在符号音乐数据中的有效使用以及进一步研究的可能性。

Feb, 2024

基于主题的符号音乐表示学习

通过使用 Siamese 网络架构和预训练及微调流程，本研究旨在通过表示学习来学习旋律和其变化之间的内在关系。实验证明，这两种方法相互补充，在检索任务中使精确度 - 召回率曲线下的面积提高了 12.6%。最后，我们可视化所获得的旋律表示，以直观地理解音乐作品的整体结构。据我们所知，这项工作在计算建模音乐旋律方面迈出了值得关注的一步，为未来的自动音乐创作和音乐信息检索应用奠定了基础。

Sep, 2023

MelodyGLM：多任务符号化旋律生成的预训练

该研究提出了 MelodyGLM，一个多任务预训练框架，用于生成带有长期结构的旋律。研究使用 melodic n-gram 和长跨度抽样策略来创建本地和全局填充任务，以建模旋律中的本地和全局结构。研究还构建了一个包含超过 40 万旋律片段的大规模符号旋律数据集，用于大规模预训练和领域特定的 n-gram 词典构建。主观和客观评估结果表明，MelodyGLM 超过了标准和之前的预训练方法，在旋律连续性、节奏性、结构性和整体质量方面都取得了显著改进。值得注意的是，MelodyGLM 在旋律填充任务上几乎与人类创作的旋律的质量相媲美。

Sep, 2023