AAAIDec, 2023

N-Gram 无监督复合和特征注入以提升符号音乐理解能力

TL;DR应用深度学习技术对符号音乐进行理解的第一步是将音乐作品(主要是 MIDI 格式)转换为预定义令牌的序列,如音符音高、音符速度和和弦。然后,将这些序列输入神经序列模型以完成特定任务。在本文中,我们提出了一种新的方法 ——NG-Midiformer,用于理解符号音乐序列,该方法利用了 N-gram 方法。我们的方法首先使用我们提出的无监督复合法将音乐作品处理成类似单词的序列,然后使用我们的 N-gram Transformer 编码器,该编码器能够有效地融合 N-gram 信息,以增强用于更好理解音乐序列的主要编码器部分。大规模音乐数据集上的预训练过程使模型能够深入学习包含在音乐序列中的 N-gram 信息,并在微调阶段应用此信息进行推理。实验证明了我们方法的有效性,并在一系列音乐理解下游任务中实现了最先进的性能。