量化自动音乐转录系统中的语料偏差问题

Aug, 2024

量化自动音乐转录系统中的语料偏差问题

Quantifying the Corpus Bias Problem in Automatic Music Transcription Systems

Lukáš Samuel Marták, Patricia Hu, Gerhard Widmer

TL;DR本研究针对自动音乐转录（AMT）系统中存在的语料偏差问题，探讨了其在音乐数据稀缺情况下的表现不足。通过引入两个新的实验测试集，评估了几种尖端AMT系统在不同音乐分布变化下的性能，发现了显著的性能差距，进而揭示了该问题对系统的影响。

Abstract

Automatic Music Transcription (AMT) is the task of recognizing notes in audio recordings of music. The State-of-the-Art (SotA) benchmarks have been dominated by Deep Learning systems. Due to the scarcity of high

发现论文，激发创造

MT3: 多任务多轨音乐转录

本文利用序列到序列传递学习的多任务自然语言处理模型，在多个不同的乐器转录数据集上对多种音乐乐器进行了联合转录，展示了其在低资源乐器的表现结果显著，同时保持了高质量的表现结果，是多任务自动音乐转录领域的强有力基线。

Nov, 2021

声学特定钢琴速度估计

通过建立具有特定声学特性的AMT系统，该系统以音频记录和相对齐奏乐谱为输入，并输出每个音符的声学特性速度，以应对现有AMT方法无法完整还原钢琴演奏的问题。

Mar, 2022

野外音乐自动转录的非对齐监督

NoteEM是一种自动化的乐曲信息获取方法，能够实现从现实世界的音频记录中以高精度解码出对应的乐曲内容，其主要特点为采用了非对齐监督、伪标签和音高位移等技术。该方法在MAPS数据集上取得了最好的记录水平准确度，并在跨数据集评估中也表现出积极优势。

Apr, 2022

多轨音乐变换器

提出了一种新型的多轨音乐表示方式，可以同时包含多种不同类型的乐器，并实现了基于音乐自注意力的实时即兴演奏，该方法在速度和内存占用方面都具有优势。

Jul, 2022

音乐理解的有监督和无监督音频表示学习

本文提供了音频理解模型预训练策略的广泛比较分析，探讨了预训练数据集（音乐或通用音频）和预训练方法（有监督或无监督）对下游任务的影响，特别是在音乐领域的多项任务中，超大规模有人工注释的音乐数据集上训练的有监督模型实现了最先进的性能，而域限制在音乐领域的无监督模型则在某些情况下能实现优异的有监督学习和无监督学习性能，表现出较高的效率和通用性。

Oct, 2022

DiffRoll：基于扩散的生成式音乐转录技术及无监督预训练能力

提出了一种新的生成方法，DiffRoll，来处理自动音乐转录问题。它将AMT视为有条件的生成任务，从其理论上训练模型来从纯高斯噪声中生成逼真的钢琴卷，因此DiffRoll不需要分类器，可在仅提供钢琴卷的不配对数据集上训练。实验证明，DiffRoll的性能优于其判别式对应物19个百分点，并且其消融研究还表明，其性能优于类似的现有方法4.8个百分点。

Oct, 2022

自动音乐转录中乐器间知识的传递

本文探讨使用软件合成音频数据训练通用模型来加快乐器自动转录模型的转移学习，结果表明使用合成数据训练模型可能是预训练通用模型的良好基础。

Apr, 2023

无注释自动音乐转录：基于可扩展合成数据和对抗领域混淆技术

提出了一种无需注释数据的音乐自动转录模型，通过利用可扩展的合成音频进行预训练和对抗性域混淆，实现了比使用混合注释真实音频数据学习时更高的准确性，在AMT研究领域中，揭示了这种方法的可扩展性和面临的挑战。

Dec, 2023

高分辨率吉他转录通过领域适应

使用高分辨率钢琴转录模型训练新的吉他转录模型，从而在零样本情况下在GuitarSet上获得最先进的转录结果，改进了之前发表的方法。

Feb, 2024

机器学习技术在自动音乐转录中的应用：系统调研

音乐信息检索领域的自动音乐转录（AMT）是一项核心挑战，旨在将音频信号转换为音乐符号表示，本文扼要回顾了AMT在音乐信号分析中的关键作用，强调了由于音乐和谐的复杂和相互叠加的频谱结构而对AMT的重要性，通过对AMT中现有的机器学习技术的彻底研究，我们探讨了当前模型和方法的进展和限制。尽管有可观的进展，AMT系统尚未达到人类专家的准确度，这在很大程度上是由于音乐和谐的复杂性和对细致解释的需求。本综述批判性评估了全自动和半自动的AMT系统，强调了最小用户干预的重要性，并研究了迄今为止提出的各种方法。通过解决先前技术的限制并提出改进的途径，我们的目标是引导未来的研究朝着能够准确且高效地将复杂的音频信号转化为精确的符号表示的全自动AMT系统。本研究不仅综合了最新的进展，而且为克服AMT中的现有挑战提供了一个路线图，为研究人员提供了有价值的洞察，旨在缩小当前系统和人类级转录准确性之间的差距。

Jun, 2024