基于神经自回归模型的高效实时钢琴转录

Apr, 2024

基于神经自回归模型的高效实时钢琴转录

Towards Efficient and Real-Time Piano Transcription Using Neural Autoregressive Models

Taegyun Kwon, Dasaem Jeong, Juhan Nam

TL;DR通过改进神经网络设计和模型大小，实现实时推断的钢琴转录模型，与现有最先进模型在音符精确度上相媲美并具有高性能及轻量级特点。

Abstract

In recent years, advancements in neural network designs and the availability of large-scale labeled datasets have led to significant improvements in the accuracy of piano transcription models. However, most previ

neural network designs piano transcription models real-time inference model size autoregressive connection

发现论文，激发创造

基于数据驱动的鲁棒自动钢琴转录分析

通过研究训练数据的角度，本文通过在 MAESTRO 数据集的原始和重新执行版本上使用各种数据增强技术，获得了 MAPS 数据集的最新音符起始准确性，而无需查看其他的训练数据。

Feb, 2024

深度多音 ADSR 钢琴音符转录

研究了一种迟到融合方法和手工隐藏马尔可夫模型在钢琴转录中的应用，利用 ADSR 包络获取转移概率进行音符分段并经过最终的二进制决策规则，从而实现对完整音符的准确转换。在 MAPS 数据集上取得了最先进的结果，并能够大幅超越其他方法。

Jun, 2019

实现逼真音乐生成的挑战：在规模上对原始音频进行建模

本文探讨了采用自回归离散自编码器（ADAs）来模拟音乐块之间的长期依赖关系的方法，实现了在原始音频域中生成具有风格一致性的钢琴音乐。

Jun, 2018

神经参数化唱歌合成器

利用基于 WaveNet 架构的新型合成模型，对参数声码器产生的特征进行建模，并使用混合密度输出，实现对每个帧的预测，避免了过度拟合，在预测错误的情况下进行自回归生成算法的正则化，成功将和声、非周期性和有声 / 无声组件预测在一起，比现有的参数化统计方法和拼接方法更为有效。

Apr, 2017

基于 Transformer 的序列到序列钢琴转录

本文展示了使用通用 encoder-decoder Transformer 和标准解码方法可实现与专业领域特定设计模型同等效果的自动音乐转录方法，从而取消了任务特定架构的需求，简化了转录，为集中精力于数据集创建和标注而非模型设计提供了可能性。

Jul, 2021

Onsets and Frames: 双目标钢琴转录

用深度卷积和递归神经网络来提高多声部钢琴音乐转录，在预测音符的开始和结束时间方面取得了相对 100% 的提升，并且通过预测标准化音频的相对速度得到更自然的转录结果。

Oct, 2017

关于利用简单基于帧的方法进行钢琴转录的潜力

在钢琴转录任务中，采用基于神经网络的帧级别方法，并通过系统比较适用于神经网络的不同流行的输入表示方法并充分利用训练技术和新的正则化方法，得出了一个比目前公开发表的最新技术在 MAPS 数据集上性能更好的钢琴转录器。因此，本文提出这种简单的方法作为未来音乐转录研究的新基准。

Dec, 2016

分层频时间转换的自动钢琴转录

提出了一种名为 hFT-Transformer 的自动音乐转录方法，该方法利用了两种级别的分层频率 - 时间 Transformer 结构，能够捕捉音频中的长期依赖关系，并在评估中表现出最先进的性能。

Jul, 2023

使用 MAESTRO 数据集实现分解式钢琴音乐建模和生成

该研究使用 MAESTRO 数据集中的音符事件作为中间表示，训练了一系列的神经网络模型，用于转录、合成和生成具备连贯乐曲结构的音频波形，从而实现了跨六个数量级（0.1ms 到 100s）的音频合成。

Oct, 2018

快速准确的循环神经网络语音识别声学模型

该论文介绍利用深度 LSTM 循环神经网络、CD 电话建模、帧叠加与减少帧率等技术来提高语音识别准确率的研究，并探讨了直接输出单词的 LSTM RNN 模型的初步结果。

Jul, 2015