胶水音符:用于稳健和灵活音符对齐的学习表示
本文介绍了一种新的变分自编码器模型MusicVAE,利用层次化解码器结构用于序列数据建模,解决了长程序列结构状态建模的问题,并实现了更好的采样、插值和重构表现。
Mar, 2018
该论文提出了一种新型Transformer解码器架构,其用于不同的前馈头来模拟不同类型的tokens,以及一种扩展-压缩技巧将邻近的tokens分组成复合单词的序列,表现出比现有模型更快和同等质量的学习能力.
Jan, 2021
NoteEM是一种自动化的乐曲信息获取方法,能够实现从现实世界的音频记录中以高精度解码出对应的乐曲内容,其主要特点为采用了非对齐监督、伪标签和音高位移等技术。该方法在MAPS数据集上取得了最好的记录水平准确度,并在跨数据集评估中也表现出积极优势。
Apr, 2022
该研究提出了MelodyGLM,一个多任务预训练框架,用于生成带有长期结构的旋律。研究使用melodic n-gram和长跨度抽样策略来创建本地和全局填充任务,以建模旋律中的本地和全局结构。研究还构建了一个包含超过40万旋律片段的大规模符号旋律数据集,用于大规模预训练和领域特定的n-gram词典构建。主观和客观评估结果表明,MelodyGLM超过了标准和之前的预训练方法,在旋律连续性、节奏性、结构性和整体质量方面都取得了显著改进。值得注意的是,MelodyGLM在旋律填充任务上几乎与人类创作的旋律的质量相媲美。
Sep, 2023
设计了一种跨模态循环网络,通过学习联合嵌入,能够总结相应音频和乐谱的更长的段落,解决了强对齐数据和音频与乐谱节奏差异导致的局部和全局差异问题,并在实验中验证了该方法在所有可能的配置中进行更准确的检索。
Sep, 2023
应用深度学习技术对符号音乐进行理解的第一步是将音乐作品(主要是MIDI格式)转换为预定义令牌的序列,如音符音高、音符速度和和弦。然后,将这些序列输入神经序列模型以完成特定任务。在本文中,我们提出了一种新的方法——NG-Midiformer,用于理解符号音乐序列,该方法利用了N-gram方法。我们的方法首先使用我们提出的无监督复合法将音乐作品处理成类似单词的序列,然后使用我们的N-gram Transformer编码器,该编码器能够有效地融合N-gram信息,以增强用于更好理解音乐序列的主要编码器部分。大规模音乐数据集上的预训练过程使模型能够深入学习包含在音乐序列中的N-gram信息,并在微调阶段应用此信息进行推理。实验证明了我们方法的有效性,并在一系列音乐理解下游任务中实现了最先进的性能。
Dec, 2023
该研究介绍了一种基于强化学习的在线符号音乐对齐技术,利用注意力机制的神经网络估计乐谱位置,并通过三种方式进行评估,优于当前最先进的离线符号音乐对齐模型。
Dec, 2023
该研究解决了和弦注释与音乐音频对齐的不足,提出了一种新颖的基于Conformer的ChordSync模型,能够实现和弦注释与音频的精确对齐,而无需弱对齐数据。该工作的重要发现是,可以有效利用在线众包和弦注释数据,推动音乐信息检索和音乐教育的发展,提供准确的和弦注释,从而增强学习体验。
Aug, 2024