高分辨率吉他转录通过领域适应

Feb, 2024

High Resolution Guitar Transcription via Domain Adaptation

Xavier Riley, Drew Edwards, Simon Dixon

TL;DR使用高分辨率钢琴转录模型训练新的吉他转录模型，从而在零样本情况下在 GuitarSet 上获得最先进的转录结果，改进了之前发表的方法。

Abstract

automatic music transcription (amt) has achieved high accuracy for piano due to the availability of large, high-quality datasets such as M

automatic music transcription amt piano guitar transcription model

发现论文，激发创造

自动音乐转录中乐器间知识的传递

本文探讨使用软件合成音频数据训练通用模型来加快乐器自动转录模型的转移学习，结果表明使用合成数据训练模型可能是预训练通用模型的良好基础。

Apr, 2023

MT3: 多任务多轨音乐转录

本文利用序列到序列传递学习的多任务自然语言处理模型，在多个不同的乐器转录数据集上对多种音乐乐器进行了联合转录，展示了其在低资源乐器的表现结果显著，同时保持了高质量的表现结果，是多任务自动音乐转录领域的强有力基线。

Nov, 2021

基于数据驱动的鲁棒自动钢琴转录分析

通过研究训练数据的角度，本文通过在 MAESTRO 数据集的原始和重新执行版本上使用各种数据增强技术，获得了 MAPS 数据集的最新音符起始准确性，而无需查看其他的训练数据。

Feb, 2024

无注释自动音乐转录：基于可扩展合成数据和对抗领域混淆技术

提出了一种无需注释数据的音乐自动转录模型，通过利用可扩展的合成音频进行预训练和对抗性域混淆，实现了比使用混合注释真实音频数据学习时更高的准确性，在 AMT 研究领域中，揭示了这种方法的可扩展性和面临的挑战。

Dec, 2023

通过回归按键起始和终止时间进行高分辨率钢琴转录

本文提出了一种高分辨率的基于神经网络的自动音乐转录系统，可以精确定位钢琴音符的起始和终止时间，并且具有良好的鲁棒性，对于 MAESTRO 数据集的 onset F1 分数达到了 96.72％，对于 pedal onset F1 分数更是取得了 91.86％的好成绩。

Oct, 2020

野外音乐自动转录的非对齐监督

NoteEM 是一种自动化的乐曲信息获取方法，能够实现从现实世界的音频记录中以高精度解码出对应的乐曲内容，其主要特点为采用了非对齐监督、伪标签和音高位移等技术。该方法在 MAPS 数据集上取得了最好的记录水平准确度，并在跨数据集评估中也表现出积极优势。

Apr, 2022

机器学习技术在自动音乐转录中的应用：系统调研

音乐信息检索领域的自动音乐转录（AMT）是一项核心挑战，旨在将音频信号转换为音乐符号表示，本文扼要回顾了 AMT 在音乐信号分析中的关键作用，强调了由于音乐和谐的复杂和相互叠加的频谱结构而对 AMT 的重要性，通过对 AMT 中现有的机器学习技术的彻底研究，我们探讨了当前模型和方法的进展和限制。尽管有可观的进展，AMT 系统尚未达到人类专家的准确度，这在很大程度上是由于音乐和谐的复杂性和对细致解释的需求。本综述批判性评估了全自动和半自动的 AMT 系统，强调了最小用户干预的重要性，并研究了迄今为止提出的各种方法。通过解决先前技术的限制并提出改进的途径，我们的目标是引导未来的研究朝着能够准确且高效地将复杂的音频信号转化为精确的符号表示的全自动 AMT 系统。本研究不仅综合了最新的进展，而且为克服 AMT 中的现有挑战提供了一个路线图，为研究人员提供了有价值的洞察，旨在缩小当前系统和人类级转录准确性之间的差距。

Jun, 2024

使用 MAESTRO 数据集实现分解式钢琴音乐建模和生成

该研究使用 MAESTRO 数据集中的音符事件作为中间表示，训练了一系列的神经网络模型，用于转录、合成和生成具备连贯乐曲结构的音频波形，从而实现了跨六个数量级（0.1ms 到 100s）的音频合成。

Oct, 2018

基于 Transformer 的序列到序列钢琴转录

本文展示了使用通用 encoder-decoder Transformer 和标准解码方法可实现与专业领域特定设计模型同等效果的自动音乐转录方法，从而取消了任务特定架构的需求，简化了转录，为集中精力于数据集创建和标注而非模型设计提供了可能性。

Jul, 2021

ReconVAT：用于低资源现实世界数据的半监督自动音乐转录框架

本论文提出了一种利用大量未标记音频数据的半监督框架 ReconVAT，采用重构损失和虚拟对抗训练，能够有效解决标记数据不足的问题，同时在最新的数据集上获得了竞争力的结果，还证明了这种方法在新数据上的持续学习潜力。

Jul, 2021