MusicBERT: 基于大规模预训练的符号音乐理解
该研究使用 BERT 的掩蔽语言建模方法尝试预训练一个 12 层 Transformer 模型,用于处理 4166 个多音乐器 MIDI 文件,以解决一些基于符号领域的音乐理解任务,并发现预训练仍然有效。
Jul, 2021
本文探讨了大型语言模型(LLMs)在音乐的预训练中的应用。研究发现,LLMs 与 ABC 记谱法更加兼容,提高了音乐创作模型的性能。为了解决不同音轨间的错位问题,我们提出了一种名为 Synchronized Multi-Track ABC Notation(SMT-ABC Notation)的方法,旨在保持多个音乐音轨之间的一致性。我们的贡献包括一系列能够处理 8192 个标记的模型,覆盖了训练集中 90%的符号音乐数据。此外,我们还研究了符号音乐缩放定律(SMS Law)对模型性能的影响。研究结果表明了音乐生成领域未来研究的一个有前途的方向,并通过我们的开源贡献为社区主导的研究提供了丰富的资源。
Apr, 2024
应用深度学习技术对符号音乐进行理解的第一步是将音乐作品(主要是 MIDI 格式)转换为预定义令牌的序列,如音符音高、音符速度和和弦。然后,将这些序列输入神经序列模型以完成特定任务。在本文中,我们提出了一种新的方法 ——NG-Midiformer,用于理解符号音乐序列,该方法利用了 N-gram 方法。我们的方法首先使用我们提出的无监督复合法将音乐作品处理成类似单词的序列,然后使用我们的 N-gram Transformer 编码器,该编码器能够有效地融合 N-gram 信息,以增强用于更好理解音乐序列的主要编码器部分。大规模音乐数据集上的预训练过程使模型能够深入学习包含在音乐序列中的 N-gram 信息,并在微调阶段应用此信息进行推理。实验证明了我们方法的有效性,并在一系列音乐理解下游任务中实现了最先进的性能。
Dec, 2023
本文研究在深度学习任务中,如何使用符号音乐模态并采用 Byte Pair Encoding (BPE) 对音乐数据进行字符编码,以提高音乐生成和作曲家分类模型的性能和均匀度。
Jan, 2023
本文研究了在符号音乐生成中,应用子词分词技术(如 Byte-pair Encoding)对生成歌曲结构和长度的影响,以及与音乐生成质量指标(如结构指标,Pitch Class Entropy 等)之间的关系。结果表明子词分词技术有望改善符号音乐生成质量,尤其是在生成多轨复杂数据时具有广泛的实际应用价值。比较 BPE 和 Unigram 两种方法的结果得出,两种方法均能带来稳定的改进。
Apr, 2023
本研究首次尝试使用 BERT、GPT-2 和 BART 等公开可用的预训练模型生成完整且语义连贯的音乐曲谱,实验结果表明使用预训练检查点在文本到音乐生成任务中具有显著改进。
Nov, 2022
本文提供了音频理解模型预训练策略的广泛比较分析,探讨了预训练数据集(音乐或通用音频)和预训练方法(有监督或无监督)对下游任务的影响,特别是在音乐领域的多项任务中,超大规模有人工注释的音乐数据集上训练的有监督模型实现了最先进的性能,而域限制在音乐领域的无监督模型则在某些情况下能实现优异的有监督学习和无监督学习性能,表现出较高的效率和通用性。
Oct, 2022
本文是一篇调查论文,研究了将自然语言处理(NLP)方法应用于符号音乐生成和信息检索的研究,提出了符号音乐的表示方法和深度学习模型,并讨论了 NLP 工具在符号音乐数据中的有效使用以及进一步研究的可能性。
Feb, 2024
通过使用 Siamese 网络架构和预训练及微调流程,本研究旨在通过表示学习来学习旋律和其变化之间的内在关系。实验证明,这两种方法相互补充,在检索任务中使精确度 - 召回率曲线下的面积提高了 12.6%。最后,我们可视化所获得的旋律表示,以直观地理解音乐作品的整体结构。据我们所知,这项工作在计算建模音乐旋律方面迈出了值得关注的一步,为未来的自动音乐创作和音乐信息检索应用奠定了基础。
Sep, 2023
该研究提出了 MelodyGLM,一个多任务预训练框架,用于生成带有长期结构的旋律。研究使用 melodic n-gram 和长跨度抽样策略来创建本地和全局填充任务,以建模旋律中的本地和全局结构。研究还构建了一个包含超过 40 万旋律片段的大规模符号旋律数据集,用于大规模预训练和领域特定的 n-gram 词典构建。主观和客观评估结果表明,MelodyGLM 超过了标准和之前的预训练方法,在旋律连续性、节奏性、结构性和整体质量方面都取得了显著改进。值得注意的是,MelodyGLM 在旋律填充任务上几乎与人类创作的旋律的质量相媲美。
Sep, 2023