用深度卷积和递归神经网络来提高多声部钢琴音乐转录,在预测音符的开始和结束时间方面取得了相对 100% 的提升,并且通过预测标准化音频的相对速度得到更自然的转录结果。
Oct, 2017
通过改进神经网络设计和模型大小,实现实时推断的钢琴转录模型,与现有最先进模型在音符精确度上相媲美并具有高性能及轻量级特点。
Apr, 2024
通过研究训练数据的角度,本文通过在 MAESTRO 数据集的原始和重新执行版本上使用各种数据增强技术,获得了 MAPS 数据集的最新音符起始准确性,而无需查看其他的训练数据。
Feb, 2024
在钢琴转录任务中,采用基于神经网络的帧级别方法,并通过系统比较适用于神经网络的不同流行的输入表示方法并充分利用训练技术和新的正则化方法,得出了一个比目前公开发表的最新技术在 MAPS 数据集上性能更好的钢琴转录器。因此,本文提出这种简单的方法作为未来音乐转录研究的新基准。
Dec, 2016
本文展示了使用通用 encoder-decoder Transformer 和标准解码方法可实现与专业领域特定设计模型同等效果的自动音乐转录方法,从而取消了任务特定架构的需求,简化了转录,为集中精力于数据集创建和标注而非模型设计提供了可能性。
Jul, 2021
提出了一种名为 hFT-Transformer 的自动音乐转录方法,该方法利用了两种级别的分层频率 - 时间 Transformer 结构,能够捕捉音频中的长期依赖关系,并在评估中表现出最先进的性能。
Jul, 2023
通过基于循环神经网络的概率模型将输入序列转换为高维输出序列来将复调音频音乐转录成符号表示,从而得到了在高噪声下能够产生合理输出分布的方法,并通过有效的算法大幅优于之前最先进的方法,在五个数据集上将测试误差率减半。
Dec, 2012
基于序列到序列模型的钢琴音频转谱任务中使用层次解码器,结合多任务学习实现对小节和音符级别音符信息的转录,同时通过预处理方法保留谱表结构以重构声部;通过两阶段训练方案,首先在合成音频上进行预训练,然后在人类演奏录音上进行微调从而弥补合成数据与人类演奏录音之间的差距。实验结果表明,该方法在合成音频数据与当前最先进技术相比的转录性能以及对人类演奏录音的首次实验方面具有良好效果。
May, 2024
该研究使用 MAESTRO 数据集中的音符事件作为中间表示,训练了一系列的神经网络模型,用于转录、合成和生成具备连贯乐曲结构的音频波形,从而实现了跨六个数量级(0.1ms 到 100s)的音频合成。
Oct, 2018
使用高分辨率钢琴转录模型训练新的吉他转录模型,从而在零样本情况下在 GuitarSet 上获得最先进的转录结果,改进了之前发表的方法。