分层频时间转换的自动钢琴转录

Jul, 2023

Automatic Piano Transcription with Hierarchical Frequency-Time Transformer

Keisuke Toyama, Taketo Akama, Yukara Ikemiya, Yuhta Takida, Wei-Hsiang Liao...

TL;DR提出了一种名为 hFT-Transformer 的自动音乐转录方法，该方法利用了两种级别的分层频率 - 时间 Transformer 结构，能够捕捉音频中的长期依赖关系，并在评估中表现出最先进的性能。

Abstract

Taking long-term spectral and temporal dependencies into account is essential for automatic piano transcription. This is especially helpful when determining the precise onset and offset for each note in the polyphonic piano content. In this case, we may rely on the capability of

automatic piano transcription long-term dependencies self-attention mechanism transformers hierarchical frequency-time transformer music transcription

发现论文，激发创造

基于 Transformer 的序列到序列钢琴转录

本文展示了使用通用 encoder-decoder Transformer 和标准解码方法可实现与专业领域特定设计模型同等效果的自动音乐转录方法，从而取消了任务特定架构的需求，简化了转录，为集中精力于数据集创建和标注而非模型设计提供了可能性。

Jul, 2021

基于时间 - 频率感知器的多轨音乐转录

本文提出了一种新型的深度神经网络结构 Perceiver TF，用于多音轨音乐转录，通过引入分层扩展和额外的 Transformer 层来建模音频输入的时间 - 频率表示，从而实现 12 种乐器和声音的多任务学习，结果表明该系统在各种公共数据集上的性能优于现有的其他对手。

Jun, 2023

基于数据驱动的鲁棒自动钢琴转录分析

通过研究训练数据的角度，本文通过在 MAESTRO 数据集的原始和重新执行版本上使用各种数据增强技术，获得了 MAPS 数据集的最新音符起始准确性，而无需查看其他的训练数据。

Feb, 2024

使用前馈 Transformer 进行序列到序列歌唱合成

提出了一种基于 Transformer 模型的序列到序列歌曲合成器，使用自身注意力机制结合初始的音长模型来准确合成出作曲家想要的声音，相比于基于老师强制训练的自回归模型，具有更快的推理速度和更好的生成效果。

Oct, 2019

基于神经自回归模型的高效实时钢琴转录

通过改进神经网络设计和模型大小，实现实时推断的钢琴转录模型，与现有最先进模型在音符精确度上相媲美并具有高性能及轻量级特点。

Apr, 2024

深度多音 ADSR 钢琴音符转录

研究了一种迟到融合方法和手工隐藏马尔可夫模型在钢琴转录中的应用，利用 ADSR 包络获取转移概率进行音符分段并经过最终的二进制决策规则，从而实现对完整音符的准确转换。在 MAPS 数据集上取得了最先进的结果，并能够大幅超越其他方法。

Jun, 2019

有监督音乐转录的不变性和数据增强

本文探讨了基于帧的音乐转录的各种模型，重点在于达到人类录音的最新的方法。本文中讨论的具有平移不变性的网络，结合了传统的滤波器和卷积神经网络，在 2017 年 MIREX 多基频估计评估测试中成为最佳性能模型。本类模型在 log 频率域中共享参数，利用音乐的频率不变性来减少模型参数数量并避免对训练数据的过度拟合。本文中的所有模型都是通过 MusicNet 数据集中具有标记的数据进行监督训练的，并通过随机保持标签的音调变换进行增强。

Nov, 2017

Onsets and Frames: 双目标钢琴转录

用深度卷积和递归神经网络来提高多声部钢琴音乐转录，在预测音符的开始和结束时间方面取得了相对 100% 的提升，并且通过预测标准化音频的相对速度得到更自然的转录结果。

Oct, 2017

关于利用简单基于帧的方法进行钢琴转录的潜力

在钢琴转录任务中，采用基于神经网络的帧级别方法，并通过系统比较适用于神经网络的不同流行的输入表示方法并充分利用训练技术和新的正则化方法，得出了一个比目前公开发表的最新技术在 MAPS 数据集上性能更好的钢琴转录器。因此，本文提出这种简单的方法作为未来音乐转录研究的新基准。

Dec, 2016

音乐非局部统计作为音频转谱钢琴转录的指导

提出了一种自动钢琴转录系统，该系统利用基于深度神经网络的多音高检测和基于统计模型的节奏量化相结合的方法提高了音乐信息处理的准确性，在系统性评估中发现一些全局特征误差较大，而由音乐知识推导的音高和节奏内容的非局部统计显著提高了转录结果的准确性。

Aug, 2020