MidiBERT-Piano: 大规模符号音乐理解的预训练
本文介绍了如何用预训练模型 MusicBERT 进行符号音乐理解,并讨论了其中涉及的关键技术,包括 OctupleMIDI 编码和小节层面的掩蔽策略。实验证明,MusicBERT 在旋律完成、伴奏建议、流派、和风格分类等四项任务中具有优越性。
Jun, 2021
该研究探讨了如何使用 Transformer 结构生成多乐器音乐乐谱,使用 NES-MDB 数据集进行了实验并采用预训练方法利用 Lakh MIDI 数据集进一步提高生成效果。
Jul, 2019
本文提出将乐谱数据表示成具有韵律结构的形式,通过开发更好的数据输入方式,我们建立了一个节奏更流畅的 Pop 钢琴音乐生成模型 - Pop Music Transformer。
Feb, 2020
本研究首次尝试使用 BERT、GPT-2 和 BART 等公开可用的预训练模型生成完整且语义连贯的音乐曲谱,实验结果表明使用预训练检查点在文本到音乐生成任务中具有显著改进。
Nov, 2022
本文探讨了大型语言模型(LLMs)在音乐的预训练中的应用。研究发现,LLMs 与 ABC 记谱法更加兼容,提高了音乐创作模型的性能。为了解决不同音轨间的错位问题,我们提出了一种名为 Synchronized Multi-Track ABC Notation(SMT-ABC Notation)的方法,旨在保持多个音乐音轨之间的一致性。我们的贡献包括一系列能够处理 8192 个标记的模型,覆盖了训练集中 90%的符号音乐数据。此外,我们还研究了符号音乐缩放定律(SMS Law)对模型性能的影响。研究结果表明了音乐生成领域未来研究的一个有前途的方向,并通过我们的开源贡献为社区主导的研究提供了丰富的资源。
Apr, 2024
本文展示了使用通用 encoder-decoder Transformer 和标准解码方法可实现与专业领域特定设计模型同等效果的自动音乐转录方法,从而取消了任务特定架构的需求,简化了转录,为集中精力于数据集创建和标注而非模型设计提供了可能性。
Jul, 2021
应用深度学习技术对符号音乐进行理解的第一步是将音乐作品(主要是 MIDI 格式)转换为预定义令牌的序列,如音符音高、音符速度和和弦。然后,将这些序列输入神经序列模型以完成特定任务。在本文中,我们提出了一种新的方法 ——NG-Midiformer,用于理解符号音乐序列,该方法利用了 N-gram 方法。我们的方法首先使用我们提出的无监督复合法将音乐作品处理成类似单词的序列,然后使用我们的 N-gram Transformer 编码器,该编码器能够有效地融合 N-gram 信息,以增强用于更好理解音乐序列的主要编码器部分。大规模音乐数据集上的预训练过程使模型能够深入学习包含在音乐序列中的 N-gram 信息,并在微调阶段应用此信息进行推理。实验证明了我们方法的有效性,并在一系列音乐理解下游任务中实现了最先进的性能。
Dec, 2023
本文讨论了使用 Transformer 模型对音乐成分进行分词表示的方法,以生成适当的音乐符号表示法。研究发现,该方法在所有 12 种音乐方面都显著优于现有方法。作者还探讨了适合使用该模型的有效符号表示法,确定了该方法的最佳效果。
Dec, 2021
利用 oLMpics 基准和心理语言学探测数据集,我们对包括 T5、BART 和 ALBERT 在内的 29 个模型进行了多样化的分析。结果表明,这些模型都无法以零样本的方式解决组成性问题,并且全局模型决策也不能预测模型的语言能力。
May, 2022
通过研究训练数据的角度,本文通过在 MAESTRO 数据集的原始和重新执行版本上使用各种数据增强技术,获得了 MAPS 数据集的最新音符起始准确性,而无需查看其他的训练数据。
Feb, 2024