胶水音符：用于稳健和灵活音符对齐的学习表示

Aug, 2024

胶水音符：用于稳健和灵活音符对齐的学习表示

TheGlueNote: Learned Representations for Robust and Flexible Note Alignment

Silvan David Peter, Gerhard Widmer

TL;DR本研究解决了不同版本音乐音符对齐中的大幅不匹配问题。通过利用数据增强技术，提出了一种基于Transformer编码器的定量方法TheGlueNote，学习音符间的相似度表示。该方法在音符对齐准确性上与现有技术不相上下，更加稳健地应对版本间的不匹配，并支持任意长度的MIDI文件配对处理。

Abstract

Note Alignment refers to the task of matching individual notes of two versions of the same symbolically encoded piece. Methods addressing this task commonly rely on sequence alignment algorithms such as Hidden Markov Models or Dynamic Time Warping (DTW) applied directly to note or onse

发现论文，激发创造

建模高维序列中的时间依赖关系: 应用于复调音乐生成和转录

研究利用基于分布估计器的递归神经网络的概率模型来建模多声部音乐的问题，可以提高多声部转录的准确性。

Jun, 2012

一种用于学习音乐长期结构的分层潜变量模型

本文介绍了一种新的变分自编码器模型MusicVAE，利用层次化解码器结构用于序列数据建模，解决了长程序列结构状态建模的问题，并实现了更好的采样、插值和重构表现。

Mar, 2018

复合词变压器：学习在动态有向超图上组合全歌曲音乐

该论文提出了一种新型Transformer解码器架构，其用于不同的前馈头来模拟不同类型的tokens，以及一种扩展-压缩技巧将邻近的tokens分组成复合单词的序列，表现出比现有模型更快和同等质量的学习能力.

Jan, 2021

野外音乐自动转录的非对齐监督

NoteEM是一种自动化的乐曲信息获取方法，能够实现从现实世界的音频记录中以高精度解码出对应的乐曲内容，其主要特点为采用了非对齐监督、伪标签和音高位移等技术。该方法在MAPS数据集上取得了最好的记录水平准确度，并在跨数据集评估中也表现出积极优势。

Apr, 2022

MelodyGLM：多任务符号化旋律生成的预训练

该研究提出了MelodyGLM，一个多任务预训练框架，用于生成带有长期结构的旋律。研究使用melodic n-gram和长跨度抽样策略来创建本地和全局填充任务，以建模旋律中的本地和全局结构。研究还构建了一个包含超过40万旋律片段的大规模符号旋律数据集，用于大规模预训练和领域特定的n-gram词典构建。主观和客观评估结果表明，MelodyGLM超过了标准和之前的预训练方法，在旋律连续性、节奏性、结构性和整体质量方面都取得了显著改进。值得注意的是，MelodyGLM在旋律填充任务上几乎与人类创作的旋律的质量相媲美。

Sep, 2023

用循环模型进行音频-乐谱检索的片段摘要

设计了一种跨模态循环网络，通过学习联合嵌入，能够总结相应音频和乐谱的更长的段落，解决了强对齐数据和音频与乐谱节奏差异导致的局部和全局差异问题，并在实验中验证了该方法在所有可能的配置中进行更准确的检索。

Sep, 2023

N-Gram无监督复合和特征注入以提升符号音乐理解能力

应用深度学习技术对符号音乐进行理解的第一步是将音乐作品（主要是MIDI格式）转换为预定义令牌的序列，如音符音高、音符速度和和弦。然后，将这些序列输入神经序列模型以完成特定任务。在本文中，我们提出了一种新的方法——NG-Midiformer，用于理解符号音乐序列，该方法利用了N-gram方法。我们的方法首先使用我们提出的无监督复合法将音乐作品处理成类似单词的序列，然后使用我们的N-gram Transformer编码器，该编码器能够有效地融合N-gram信息，以增强用于更好理解音乐序列的主要编码器部分。大规模音乐数据集上的预训练过程使模型能够深入学习包含在音乐序列中的N-gram信息，并在微调阶段应用此信息进行推理。实验证明了我们方法的有效性，并在一系列音乐理解下游任务中实现了最先进的性能。

Dec, 2023

基于离线强化学习的在线符号音乐对齐

该研究介绍了一种基于强化学习的在线符号音乐对齐技术，利用注意力机制的神经网络估计乐谱位置，并通过三种方式进行评估，优于当前最先进的离线符号音乐对齐模型。

Dec, 2023

基于神经自回归模型的高效实时钢琴转录

通过改进神经网络设计和模型大小，实现实时推断的钢琴转录模型，与现有最先进模型在音符精确度上相媲美并具有高性能及轻量级特点。

Apr, 2024

ChordSync：基于Conformer的和弦注释与音乐音频对齐

该研究解决了和弦注释与音乐音频对齐的不足，提出了一种新颖的基于Conformer的ChordSync模型，能够实现和弦注释与音频的精确对齐，而无需弱对齐数据。该工作的重要发现是，可以有效利用在线众包和弦注释数据，推动音乐信息检索和音乐教育的发展，提供准确的和弦注释，从而增强学习体验。

Aug, 2024