通过研究训练数据的角度,本文通过在 MAESTRO 数据集的原始和重新执行版本上使用各种数据增强技术,获得了 MAPS 数据集的最新音符起始准确性,而无需查看其他的训练数据。
Feb, 2024
研究了一种迟到融合方法和手工隐藏马尔可夫模型在钢琴转录中的应用,利用 ADSR 包络获取转移概率进行音符分段并经过最终的二进制决策规则,从而实现对完整音符的准确转换。在 MAPS 数据集上取得了最先进的结果,并能够大幅超越其他方法。
Jun, 2019
本文探讨了采用自回归离散自编码器(ADAs)来模拟音乐块之间的长期依赖关系的方法,实现了在原始音频域中生成具有风格一致性的钢琴音乐。
Jun, 2018
利用基于 WaveNet 架构的新型合成模型,对参数声码器产生的特征进行建模,并使用混合密度输出,实现对每个帧的预测,避免了过度拟合,在预测错误的情况下进行自回归生成算法的正则化,成功将和声、非周期性和有声 / 无声组件预测在一起,比现有的参数化统计方法和拼接方法更为有效。
Apr, 2017
本文展示了使用通用 encoder-decoder Transformer 和标准解码方法可实现与专业领域特定设计模型同等效果的自动音乐转录方法,从而取消了任务特定架构的需求,简化了转录,为集中精力于数据集创建和标注而非模型设计提供了可能性。
Jul, 2021
用深度卷积和递归神经网络来提高多声部钢琴音乐转录,在预测音符的开始和结束时间方面取得了相对 100% 的提升,并且通过预测标准化音频的相对速度得到更自然的转录结果。
Oct, 2017
在钢琴转录任务中,采用基于神经网络的帧级别方法,并通过系统比较适用于神经网络的不同流行的输入表示方法并充分利用训练技术和新的正则化方法,得出了一个比目前公开发表的最新技术在 MAPS 数据集上性能更好的钢琴转录器。因此,本文提出这种简单的方法作为未来音乐转录研究的新基准。
Dec, 2016
提出了一种名为 hFT-Transformer 的自动音乐转录方法,该方法利用了两种级别的分层频率 - 时间 Transformer 结构,能够捕捉音频中的长期依赖关系,并在评估中表现出最先进的性能。
Jul, 2023
该研究使用 MAESTRO 数据集中的音符事件作为中间表示,训练了一系列的神经网络模型,用于转录、合成和生成具备连贯乐曲结构的音频波形,从而实现了跨六个数量级(0.1ms 到 100s)的音频合成。
Oct, 2018
该论文介绍利用深度 LSTM 循环神经网络、CD 电话建模、帧叠加与减少帧率等技术来提高语音识别准确率的研究,并探讨了直接输出单词的 LSTM RNN 模型的初步结果。
Jul, 2015