ReconVAT:用于低资源现实世界数据的半监督自动音乐转录框架
提出了一种无需注释数据的音乐自动转录模型,通过利用可扩展的合成音频进行预训练和对抗性域混淆,实现了比使用混合注释真实音频数据学习时更高的准确性,在 AMT 研究领域中,揭示了这种方法的可扩展性和面临的挑战。
Dec, 2023
NoteEM 是一种自动化的乐曲信息获取方法,能够实现从现实世界的音频记录中以高精度解码出对应的乐曲内容,其主要特点为采用了非对齐监督、伪标签和音高位移等技术。该方法在 MAPS 数据集上取得了最好的记录水平准确度,并在跨数据集评估中也表现出积极优势。
Apr, 2022
本文利用序列到序列传递学习的多任务自然语言处理模型,在多个不同的乐器转录数据集上对多种音乐乐器进行了联合转录,展示了其在低资源乐器的表现结果显著,同时保持了高质量的表现结果,是多任务自动音乐转录领域的强有力基线。
Nov, 2021
音乐信息检索领域的自动音乐转录(AMT)是一项核心挑战,旨在将音频信号转换为音乐符号表示,本文扼要回顾了 AMT 在音乐信号分析中的关键作用,强调了由于音乐和谐的复杂和相互叠加的频谱结构而对 AMT 的重要性,通过对 AMT 中现有的机器学习技术的彻底研究,我们探讨了当前模型和方法的进展和限制。尽管有可观的进展,AMT 系统尚未达到人类专家的准确度,这在很大程度上是由于音乐和谐的复杂性和对细致解释的需求。本综述批判性评估了全自动和半自动的 AMT 系统,强调了最小用户干预的重要性,并研究了迄今为止提出的各种方法。通过解决先前技术的限制并提出改进的途径,我们的目标是引导未来的研究朝着能够准确且高效地将复杂的音频信号转化为精确的符号表示的全自动 AMT 系统。本研究不仅综合了最新的进展,而且为克服 AMT 中的现有挑战提供了一个路线图,为研究人员提供了有价值的洞察,旨在缩小当前系统和人类级转录准确性之间的差距。
Jun, 2024
我们提出了一种使用无标签数据学习多模态表示的框架,利用无卷积的 Transformer 架构。通过使用多模态对比损失训练 Video-Audio-Text Transformer (VATT),我们从三个模态中提取丰富的多模态表示,并在视频动作识别、音频事件分类、图像分类和文本到视频检索等下游任务中对其性能进行评估。VATT 不需要监督预训练,其视觉 Transformer 在 Kinetics-400 上实现了 82.1%、在 Kinetics-600 上实现了 83.6%、在 Kinetics-700 上实现了 72.7%、在 Moments in Time 上实现了 41.1% 的最高准确率,并且将 VATT 迁移至图像分类任务中,其 ImageNet 的最高准确率达到了 78.7%。VATT 的音频 Transformer 在 AudioSet 上实现了 39.4% 的 mAP,而不需要监督预训练,表现出模型的泛化能力。
Apr, 2021
通过研究训练数据的角度,本文通过在 MAESTRO 数据集的原始和重新执行版本上使用各种数据增强技术,获得了 MAPS 数据集的最新音符起始准确性,而无需查看其他的训练数据。
Feb, 2024
本文探讨了基于帧的音乐转录的各种模型,重点在于达到人类录音的最新的方法。本文中讨论的具有平移不变性的网络,结合了传统的滤波器和卷积神经网络,在 2017 年 MIREX 多基频估计评估测试中成为最佳性能模型。本类模型在 log 频率域中共享参数,利用音乐的频率不变性来减少模型参数数量并避免对训练数据的过度拟合。本文中的所有模型都是通过 MusicNet 数据集中具有标记的数据进行监督训练的,并通过随机保持标签的音调变换进行增强。
Nov, 2017
Timbre-Trap 是一个新型框架,通过利用音高和音色之间的强分离性,将音乐转录和音频重建相统一。我们通过训练一个 U-Net 模型,同时估计音高显著性和重建复杂谱系数,通过简单的切换机制在解码阶段选择其中之一的输出。我们证明了该框架的性能可与最先进的无特定乐器转录方法相媲美,而只需要少量的带注释数据。
Sep, 2023