分层频时间转换的自动钢琴转录
本文展示了使用通用 encoder-decoder Transformer 和标准解码方法可实现与专业领域特定设计模型同等效果的自动音乐转录方法,从而取消了任务特定架构的需求,简化了转录,为集中精力于数据集创建和标注而非模型设计提供了可能性。
Jul, 2021
本文提出了一种新型的深度神经网络结构 Perceiver TF,用于多音轨音乐转录,通过引入分层扩展和额外的 Transformer 层来建模音频输入的时间 - 频率表示,从而实现 12 种乐器和声音的多任务学习,结果表明该系统在各种公共数据集上的性能优于现有的其他对手。
Jun, 2023
通过研究训练数据的角度,本文通过在 MAESTRO 数据集的原始和重新执行版本上使用各种数据增强技术,获得了 MAPS 数据集的最新音符起始准确性,而无需查看其他的训练数据。
Feb, 2024
提出了一种基于 Transformer 模型的序列到序列歌曲合成器,使用自身注意力机制结合初始的音长模型来准确合成出作曲家想要的声音,相比于基于老师强制训练的自回归模型,具有更快的推理速度和更好的生成效果。
Oct, 2019
研究了一种迟到融合方法和手工隐藏马尔可夫模型在钢琴转录中的应用,利用 ADSR 包络获取转移概率进行音符分段并经过最终的二进制决策规则,从而实现对完整音符的准确转换。在 MAPS 数据集上取得了最先进的结果,并能够大幅超越其他方法。
Jun, 2019
本文探讨了基于帧的音乐转录的各种模型,重点在于达到人类录音的最新的方法。本文中讨论的具有平移不变性的网络,结合了传统的滤波器和卷积神经网络,在 2017 年 MIREX 多基频估计评估测试中成为最佳性能模型。本类模型在 log 频率域中共享参数,利用音乐的频率不变性来减少模型参数数量并避免对训练数据的过度拟合。本文中的所有模型都是通过 MusicNet 数据集中具有标记的数据进行监督训练的,并通过随机保持标签的音调变换进行增强。
Nov, 2017
用深度卷积和递归神经网络来提高多声部钢琴音乐转录,在预测音符的开始和结束时间方面取得了相对 100% 的提升,并且通过预测标准化音频的相对速度得到更自然的转录结果。
Oct, 2017
在钢琴转录任务中,采用基于神经网络的帧级别方法,并通过系统比较适用于神经网络的不同流行的输入表示方法并充分利用训练技术和新的正则化方法,得出了一个比目前公开发表的最新技术在 MAPS 数据集上性能更好的钢琴转录器。因此,本文提出这种简单的方法作为未来音乐转录研究的新基准。
Dec, 2016
提出了一种自动钢琴转录系统,该系统利用基于深度神经网络的多音高检测和基于统计模型的节奏量化相结合的方法提高了音乐信息处理的准确性,在系统性评估中发现一些全局特征误差较大,而由音乐知识推导的音高和节奏内容的非局部统计显著提高了转录结果的准确性。
Aug, 2020