ReconVAT：用于低资源现实世界数据的半监督自动音乐转录框架

MMJul, 2021

ReconVAT：用于低资源现实世界数据的半监督自动音乐转录框架

ReconVAT: A Semi-Supervised Automatic Music Transcription Framework for Low-Resource Real-World Data

Kin Wai Cheuk, Dorien Herremans, Li Su

TL;DR本论文提出了一种利用大量未标记音频数据的半监督框架 ReconVAT，采用重构损失和虚拟对抗训练，能够有效解决标记数据不足的问题，同时在最新的数据集上获得了竞争力的结果，还证明了这种方法在新数据上的持续学习潜力。

Abstract

Most of the current supervised automatic music transcription (AMT) models lack the ability to generalize. This means that they have trouble transcribing real-world music recordings from diverse musical genres that are not presented in the labelled training data. In this paper, we propo

music transcription semi-supervised learning reconvat unlabelled data continual learning

发现论文，激发创造

自动音乐转录中乐器间知识的传递

本文探讨使用软件合成音频数据训练通用模型来加快乐器自动转录模型的转移学习，结果表明使用合成数据训练模型可能是预训练通用模型的良好基础。

Apr, 2023

无注释自动音乐转录：基于可扩展合成数据和对抗领域混淆技术

提出了一种无需注释数据的音乐自动转录模型，通过利用可扩展的合成音频进行预训练和对抗性域混淆，实现了比使用混合注释真实音频数据学习时更高的准确性，在 AMT 研究领域中，揭示了这种方法的可扩展性和面临的挑战。

Dec, 2023

野外音乐自动转录的非对齐监督

NoteEM 是一种自动化的乐曲信息获取方法，能够实现从现实世界的音频记录中以高精度解码出对应的乐曲内容，其主要特点为采用了非对齐监督、伪标签和音高位移等技术。该方法在 MAPS 数据集上取得了最好的记录水平准确度，并在跨数据集评估中也表现出积极优势。

Apr, 2022

MT3: 多任务多轨音乐转录

本文利用序列到序列传递学习的多任务自然语言处理模型，在多个不同的乐器转录数据集上对多种音乐乐器进行了联合转录，展示了其在低资源乐器的表现结果显著，同时保持了高质量的表现结果，是多任务自动音乐转录领域的强有力基线。

Nov, 2021

机器学习技术在自动音乐转录中的应用：系统调研

音乐信息检索领域的自动音乐转录（AMT）是一项核心挑战，旨在将音频信号转换为音乐符号表示，本文扼要回顾了 AMT 在音乐信号分析中的关键作用，强调了由于音乐和谐的复杂和相互叠加的频谱结构而对 AMT 的重要性，通过对 AMT 中现有的机器学习技术的彻底研究，我们探讨了当前模型和方法的进展和限制。尽管有可观的进展，AMT 系统尚未达到人类专家的准确度，这在很大程度上是由于音乐和谐的复杂性和对细致解释的需求。本综述批判性评估了全自动和半自动的 AMT 系统，强调了最小用户干预的重要性，并研究了迄今为止提出的各种方法。通过解决先前技术的限制并提出改进的途径，我们的目标是引导未来的研究朝着能够准确且高效地将复杂的音频信号转化为精确的符号表示的全自动 AMT 系统。本研究不仅综合了最新的进展，而且为克服 AMT 中的现有挑战提供了一个路线图，为研究人员提供了有价值的洞察，旨在缩小当前系统和人类级转录准确性之间的差距。

Jun, 2024

高分辨率吉他转录通过领域适应

使用高分辨率钢琴转录模型训练新的吉他转录模型，从而在零样本情况下在 GuitarSet 上获得最先进的转录结果，改进了之前发表的方法。

Feb, 2024

VATT：用于原始视频、音频和文本的多模态自监督学习的 Transformer 模型

我们提出了一种使用无标签数据学习多模态表示的框架，利用无卷积的 Transformer 架构。通过使用多模态对比损失训练 Video-Audio-Text Transformer (VATT)，我们从三个模态中提取丰富的多模态表示，并在视频动作识别、音频事件分类、图像分类和文本到视频检索等下游任务中对其性能进行评估。VATT 不需要监督预训练，其视觉 Transformer 在 Kinetics-400 上实现了 82.1%、在 Kinetics-600 上实现了 83.6%、在 Kinetics-700 上实现了 72.7%、在 Moments in Time 上实现了 41.1% 的最高准确率，并且将 VATT 迁移至图像分类任务中，其 ImageNet 的最高准确率达到了 78.7%。VATT 的音频 Transformer 在 AudioSet 上实现了 39.4% 的 mAP，而不需要监督预训练，表现出模型的泛化能力。

Apr, 2021

基于数据驱动的鲁棒自动钢琴转录分析

通过研究训练数据的角度，本文通过在 MAESTRO 数据集的原始和重新执行版本上使用各种数据增强技术，获得了 MAPS 数据集的最新音符起始准确性，而无需查看其他的训练数据。

Feb, 2024

有监督音乐转录的不变性和数据增强

本文探讨了基于帧的音乐转录的各种模型，重点在于达到人类录音的最新的方法。本文中讨论的具有平移不变性的网络，结合了传统的滤波器和卷积神经网络，在 2017 年 MIREX 多基频估计评估测试中成为最佳性能模型。本类模型在 log 频率域中共享参数，利用音乐的频率不变性来减少模型参数数量并避免对训练数据的过度拟合。本文中的所有模型都是通过 MusicNet 数据集中具有标记的数据进行监督训练的，并通过随机保持标签的音调变换进行增强。

Nov, 2017

音色陷阱：一种用于不受乐器限制的音乐转录的低资源框架

Timbre-Trap 是一个新型框架，通过利用音高和音色之间的强分离性，将音乐转录和音频重建相统一。我们通过训练一个 U-Net 模型，同时估计音高显著性和重建复杂谱系数，通过简单的切换机制在解码阶段选择其中之一的输出。我们证明了该框架的性能可与最先进的无特定乐器转录方法相媲美，而只需要少量的带注释数据。

Sep, 2023