无注释自动音乐转录：基于可扩展合成数据和对抗领域混淆技术

Dec, 2023

无注释自动音乐转录：基于可扩展合成数据和对抗领域混淆技术

Annotation-Free Automatic Music Transcription with Scalable Synthetic Data and Adversarial Domain Confusion

Gakusei Sato, Taketo Akama

TL;DR提出了一种无需注释数据的音乐自动转录模型，通过利用可扩展的合成音频进行预训练和对抗性域混淆，实现了比使用混合注释真实音频数据学习时更高的准确性，在 AMT 研究领域中，揭示了这种方法的可扩展性和面临的挑战。

Abstract

automatic music transcription (amt) is a crucial technology in music information processing. Despite recent improvements in performance through m

automatic music transcription amt machine learning approaches annotation data adversarial domain confusion

发现论文，激发创造

自动音乐转录中乐器间知识的传递

本文探讨使用软件合成音频数据训练通用模型来加快乐器自动转录模型的转移学习，结果表明使用合成数据训练模型可能是预训练通用模型的良好基础。

Apr, 2023

机器学习技术在自动音乐转录中的应用：系统调研

音乐信息检索领域的自动音乐转录（AMT）是一项核心挑战，旨在将音频信号转换为音乐符号表示，本文扼要回顾了 AMT 在音乐信号分析中的关键作用，强调了由于音乐和谐的复杂和相互叠加的频谱结构而对 AMT 的重要性，通过对 AMT 中现有的机器学习技术的彻底研究，我们探讨了当前模型和方法的进展和限制。尽管有可观的进展，AMT 系统尚未达到人类专家的准确度，这在很大程度上是由于音乐和谐的复杂性和对细致解释的需求。本综述批判性评估了全自动和半自动的 AMT 系统，强调了最小用户干预的重要性，并研究了迄今为止提出的各种方法。通过解决先前技术的限制并提出改进的途径，我们的目标是引导未来的研究朝着能够准确且高效地将复杂的音频信号转化为精确的符号表示的全自动 AMT 系统。本研究不仅综合了最新的进展，而且为克服 AMT 中的现有挑战提供了一个路线图，为研究人员提供了有价值的洞察，旨在缩小当前系统和人类级转录准确性之间的差距。

Jun, 2024

MT3: 多任务多轨音乐转录

本文利用序列到序列传递学习的多任务自然语言处理模型，在多个不同的乐器转录数据集上对多种音乐乐器进行了联合转录，展示了其在低资源乐器的表现结果显著，同时保持了高质量的表现结果，是多任务自动音乐转录领域的强有力基线。

Nov, 2021

野外音乐自动转录的非对齐监督

NoteEM 是一种自动化的乐曲信息获取方法，能够实现从现实世界的音频记录中以高精度解码出对应的乐曲内容，其主要特点为采用了非对齐监督、伪标签和音高位移等技术。该方法在 MAPS 数据集上取得了最好的记录水平准确度，并在跨数据集评估中也表现出积极优势。

Apr, 2022

高分辨率吉他转录通过领域适应

使用高分辨率钢琴转录模型训练新的吉他转录模型，从而在零样本情况下在 GuitarSet 上获得最先进的转录结果，改进了之前发表的方法。

Feb, 2024

ReconVAT：用于低资源现实世界数据的半监督自动音乐转录框架

本论文提出了一种利用大量未标记音频数据的半监督框架 ReconVAT，采用重构损失和虚拟对抗训练，能够有效解决标记数据不足的问题，同时在最新的数据集上获得了竞争力的结果，还证明了这种方法在新数据上的持续学习潜力。

Jul, 2021

基于数据驱动的鲁棒自动钢琴转录分析

通过研究训练数据的角度，本文通过在 MAESTRO 数据集的原始和重新执行版本上使用各种数据增强技术，获得了 MAPS 数据集的最新音符起始准确性，而无需查看其他的训练数据。

Feb, 2024

通过回归按键起始和终止时间进行高分辨率钢琴转录

本文提出了一种高分辨率的基于神经网络的自动音乐转录系统，可以精确定位钢琴音符的起始和终止时间，并且具有良好的鲁棒性，对于 MAESTRO 数据集的 onset F1 分数达到了 96.72％，对于 pedal onset F1 分数更是取得了 91.86％的好成绩。

Oct, 2020

通过领域对抗训练学习的稳健音乐表示的音乐自动标记

采用领域对抗训练 (DAT) 方法，结合合成噪声音乐数据和无标签噪声音乐数据，提高了音乐自动标记的性能，并加强了模型在不同噪声环境下的泛化能力。

Jan, 2024

构建端到端多语言自动歌词转录模型

基于可用数据集，本文旨在创建一个能够进行多语言自动歌词转录的系统，并通过扩展目标词汇集合将已被证明在英语自动歌词转录中有效的技术应用于多语言场景。通过语言分析结合语言分类性能，我们的研究发现多语言模型的性能连续优于仅针对语言子集进行训练的单语言模型，并且将语言信息纳入模型中显著提高性能。

Jun, 2024