层次解码实现面向真实世界的多音钢琴音频转谱

IJCAIMay, 2024

层次解码实现面向真实世界的多音钢琴音频转谱

End-to-End Real-World Polyphonic Piano Audio-to-Score Transcription with Hierarchical Decoding

Wei Zeng, Xian He, Ye Wang

TL;DR基于序列到序列模型的钢琴音频转谱任务中使用层次解码器，结合多任务学习实现对小节和音符级别音符信息的转录，同时通过预处理方法保留谱表结构以重构声部；通过两阶段训练方案，首先在合成音频上进行预训练，然后在人类演奏录音上进行微调从而弥补合成数据与人类演奏录音之间的差距。实验结果表明，该方法在合成音频数据与当前最先进技术相比的转录性能以及对人类演奏录音的首次实验方面具有良好效果。

Abstract

piano audio-to-score transcription (A2S) is an important yet underexplored task with extensive applications for music composition, practice, and analysis. However, existing end-to-end piano A2S systems faced difficulties in retrieving bar-level information such as key and time signatur

piano audio-to-score transcription sequence-to-sequence model hierarchical decoder expressive performance rendering kern scores

发现论文，激发创造

基于 Transformer 的序列到序列钢琴转录

本文展示了使用通用 encoder-decoder Transformer 和标准解码方法可实现与专业领域特定设计模型同等效果的自动音乐转录方法，从而取消了任务特定架构的需求，简化了转录，为集中精力于数据集创建和标注而非模型设计提供了可能性。

Jul, 2021

深度多音 ADSR 钢琴音符转录

研究了一种迟到融合方法和手工隐藏马尔可夫模型在钢琴转录中的应用，利用 ADSR 包络获取转移概率进行音符分段并经过最终的二进制决策规则，从而实现对完整音符的准确转换。在 MAPS 数据集上取得了最先进的结果，并能够大幅超越其他方法。

Jun, 2019

分层频时间转换的自动钢琴转录

提出了一种名为 hFT-Transformer 的自动音乐转录方法，该方法利用了两种级别的分层频率 - 时间 Transformer 结构，能够捕捉音频中的长期依赖关系，并在评估中表现出最先进的性能。

Jul, 2023

神经声学到词模型的模块化训练对于大词汇连续语音识别的应用

此研究提出了一种新颖的模块化培训框架，用于分别训练神经声学和语言模型，并在解码阶段仍执行端到端推理。

Mar, 2018

音乐非局部统计作为音频转谱钢琴转录的指导

提出了一种自动钢琴转录系统，该系统利用基于深度神经网络的多音高检测和基于统计模型的节奏量化相结合的方法提高了音乐信息处理的准确性，在系统性评估中发现一些全局特征误差较大，而由音乐知识推导的音高和节奏内容的非局部统计显著提高了转录结果的准确性。

Aug, 2020

基于数据驱动的鲁棒自动钢琴转录分析

通过研究训练数据的角度，本文通过在 MAESTRO 数据集的原始和重新执行版本上使用各种数据增强技术，获得了 MAPS 数据集的最新音符起始准确性，而无需查看其他的训练数据。

Feb, 2024

乐谱变换器：端到端的光学乐谱识别超越单声部转录

本研究提出了 Sheet Music Transformer 模型，这是首个能够在处理复杂音乐乐谱时不仅依赖于单音技术的端到端光学乐谱识别模型。模型基于 Transformer 的图像到序列框架，能够从输入图像中预测出标准的数字音乐编码格式的乐谱转录。实验结果表明，该模型不仅表现出了高度的能力，而且也优于目前最先进的方法，从而为端到端光学乐谱识别的进步做出了贡献。

Feb, 2024

零样本音乐源分离、转录和合成的统一模型

通过一个三合一的统一模型来对音频进行分离、转录和综合，采用一种 pitch-timbre 分离模块来更好地计算音源之间的关系，从而实现零样本学习。

Aug, 2021

使用 MAESTRO 数据集实现分解式钢琴音乐建模和生成

该研究使用 MAESTRO 数据集中的音符事件作为中间表示，训练了一系列的神经网络模型，用于转录、合成和生成具备连贯乐曲结构的音频波形，从而实现了跨六个数量级（0.1ms 到 100s）的音频合成。

Oct, 2018

高维序列转导

通过基于循环神经网络的概率模型将输入序列转换为高维输出序列来将复调音频音乐转录成符号表示，从而得到了在高噪声下能够产生合理输出分布的方法，并通过有效的算法大幅优于之前最先进的方法，在五个数据集上将测试误差率减半。

Dec, 2012