N-Gram 无监督复合和特征注入以提升符号音乐理解能力

AAAIDec, 2023

N-Gram 无监督复合和特征注入以提升符号音乐理解能力

N-Gram Unsupervised Compoundation and Feature Injection for Better Symbolic Music Understanding

Jinhao Tian, Zuchao Li, Jiajia Li, Ping Wang

TL;DR应用深度学习技术对符号音乐进行理解的第一步是将音乐作品（主要是 MIDI 格式）转换为预定义令牌的序列，如音符音高、音符速度和和弦。然后，将这些序列输入神经序列模型以完成特定任务。在本文中，我们提出了一种新的方法 ——NG-Midiformer，用于理解符号音乐序列，该方法利用了 N-gram 方法。我们的方法首先使用我们提出的无监督复合法将音乐作品处理成类似单词的序列，然后使用我们的 N-gram Transformer 编码器，该编码器能够有效地融合 N-gram 信息，以增强用于更好理解音乐序列的主要编码器部分。大规模音乐数据集上的预训练过程使模型能够深入学习包含在音乐序列中的 N-gram 信息，并在微调阶段应用此信息进行推理。实验证明了我们方法的有效性，并在一系列音乐理解下游任务中实现了最先进的性能。

Abstract

The first step to apply deep learning techniques for symbolic music understanding is to transform musical pieces (mainly in MIDI format) into sequences of predefined tokens like note pitch, note velocity, and cho

deep learning symbolic music n-gram techniques ng-midiformer music understanding

发现论文，激发创造

复合词变压器：学习在动态有向超图上组合全歌曲音乐

该论文提出了一种新型 Transformer 解码器架构，其用于不同的前馈头来模拟不同类型的 tokens，以及一种扩展 - 压缩技巧将邻近的 tokens 分组成复合单词的序列，表现出比现有模型更快和同等质量的学习能力.

Jan, 2021

符号音乐生成和信息检索的自然语言处理方法：一项调查

本文是一篇调查论文，研究了将自然语言处理（NLP）方法应用于符号音乐生成和信息检索的研究，提出了符号音乐的表示方法和深度学习模型，并讨论了 NLP 工具在符号音乐数据中的有效使用以及进一步研究的可能性。

Feb, 2024

MusicBERT: 基于大规模预训练的符号音乐理解

本文介绍了如何用预训练模型 MusicBERT 进行符号音乐理解，并讨论了其中涉及的关键技术，包括 OctupleMIDI 编码和小节层面的掩蔽策略。实验证明，MusicBERT 在旋律完成、伴奏建议、流派、和风格分类等四项任务中具有优越性。

Jun, 2021

具有歌曲结构图分析的组合音乐生成模型

提出了一种符号音乐生成模型，使用了歌曲结构图分析网络构建了一个图，利用音符序列和乐器等信息作为节点特征，音符序列之间的相关性作为边特征。通过训练图神经网络来获取图中节点的表示，然后将节点表示作为 Unet 的输入生成 CONLON 钢琴滚动图像潜变量。实验结果表明，该模型可以生成全面形式的音乐，为符号音乐生成提供了一种有前景且创新的方法，并在音乐信息检索的各个领域，包括音乐创作、音乐分类和音乐修复系统中具有潜在的应用价值。

Dec, 2023

MidiBERT-Piano: 大规模符号音乐理解的预训练

该研究使用 BERT 的掩蔽语言建模方法尝试预训练一个 12 层 Transformer 模型，用于处理 4166 个多音乐器 MIDI 文件，以解决一些基于符号领域的音乐理解任务，并发现预训练仍然有效。

Jul, 2021

基于 Transformer 的序列到序列钢琴转录

本文展示了使用通用 encoder-decoder Transformer 和标准解码方法可实现与专业领域特定设计模型同等效果的自动音乐转录方法，从而取消了任务特定架构的需求，简化了转录，为集中精力于数据集创建和标注而非模型设计提供了可能性。

Jul, 2021

得分变换器：从音符级别表示生成音乐得分

本文讨论了使用 Transformer 模型对音乐成分进行分词表示的方法，以生成适当的音乐符号表示法。研究发现，该方法在所有 12 种音乐方面都显著优于现有方法。作者还探讨了适合使用该模型的有效符号表示法，确定了该方法的最佳效果。

Dec, 2021

基于图的多音轨音乐生成

该论文在音乐生成的深度学习系统中引入了一种新颖的图表示方法和深度变分自编码器，将音乐的结构和内容分开生成，实现了更具层次结构的人机交互音乐创作方式。

Jul, 2023

深度神经网络明确结构编码对符号音乐生成的影响

本研究探讨了在给定和弦进行约束下解决旋律生成问题的方法，并比较了 LSTM（一种 RNN）和 WaveNet（扩张时间 - CNN）两种序列生成模型，结果显示使用扩张卷积层更显式地编码结构可以显著提高性能，而将基础和弦进行全局编码则更有提升效果。

Nov, 2018

MelodyGLM：多任务符号化旋律生成的预训练

该研究提出了 MelodyGLM，一个多任务预训练框架，用于生成带有长期结构的旋律。研究使用 melodic n-gram 和长跨度抽样策略来创建本地和全局填充任务，以建模旋律中的本地和全局结构。研究还构建了一个包含超过 40 万旋律片段的大规模符号旋律数据集，用于大规模预训练和领域特定的 n-gram 词典构建。主观和客观评估结果表明，MelodyGLM 超过了标准和之前的预训练方法，在旋律连续性、节奏性、结构性和整体质量方面都取得了显著改进。值得注意的是，MelodyGLM 在旋律填充任务上几乎与人类创作的旋律的质量相媲美。

Sep, 2023