得分变换器:从音符级别表示生成音乐得分
本文展示了使用通用 encoder-decoder Transformer 和标准解码方法可实现与专业领域特定设计模型同等效果的自动音乐转录方法,从而取消了任务特定架构的需求,简化了转录,为集中精力于数据集创建和标注而非模型设计提供了可能性。
Jul, 2021
本研究分析了常见的符号化音乐分词方法以及时间和音符长度表示对深度学习模型性能的影响,并通过多个任务的比较展示了直接信息在不同任务中提供更好的结果。
Oct, 2023
本文提出将乐谱数据表示成具有韵律结构的形式,通过开发更好的数据输入方式,我们建立了一个节奏更流畅的 Pop 钢琴音乐生成模型 - Pop Music Transformer。
Feb, 2020
该论文提出了一种新型 Transformer 解码器架构,其用于不同的前馈头来模拟不同类型的 tokens,以及一种扩展 - 压缩技巧将邻近的 tokens 分组成复合单词的序列,表现出比现有模型更快和同等质量的学习能力.
Jan, 2021
本篇论文介绍 Transformer 自编码器用于符号音乐生成,提高性能风格和旋律的分开控制能力,并在 MAESTRO 及 Youtube 数据集上实现了比基线更好的结果。
Dec, 2019
该研究使用 BERT 的掩蔽语言建模方法尝试预训练一个 12 层 Transformer 模型,用于处理 4166 个多音乐器 MIDI 文件,以解决一些基于符号领域的音乐理解任务,并发现预训练仍然有效。
Jul, 2021
应用深度学习技术对符号音乐进行理解的第一步是将音乐作品(主要是 MIDI 格式)转换为预定义令牌的序列,如音符音高、音符速度和和弦。然后,将这些序列输入神经序列模型以完成特定任务。在本文中,我们提出了一种新的方法 ——NG-Midiformer,用于理解符号音乐序列,该方法利用了 N-gram 方法。我们的方法首先使用我们提出的无监督复合法将音乐作品处理成类似单词的序列,然后使用我们的 N-gram Transformer 编码器,该编码器能够有效地融合 N-gram 信息,以增强用于更好理解音乐序列的主要编码器部分。大规模音乐数据集上的预训练过程使模型能够深入学习包含在音乐序列中的 N-gram 信息,并在微调阶段应用此信息进行推理。实验证明了我们方法的有效性,并在一系列音乐理解下游任务中实现了最先进的性能。
Dec, 2023
该研究探讨了如何使用 Transformer 结构生成多乐器音乐乐谱,使用 NES-MDB 数据集进行了实验并采用预训练方法利用 Lakh MIDI 数据集进一步提高生成效果。
Jul, 2019
本文是一篇调查论文,研究了将自然语言处理(NLP)方法应用于符号音乐生成和信息检索的研究,提出了符号音乐的表示方法和深度学习模型,并讨论了 NLP 工具在符号音乐数据中的有效使用以及进一步研究的可能性。
Feb, 2024