本文提供了音频理解模型预训练策略的广泛比较分析,探讨了预训练数据集(音乐或通用音频)和预训练方法(有监督或无监督)对下游任务的影响,特别是在音乐领域的多项任务中,超大规模有人工注释的音乐数据集上训练的有监督模型实现了最先进的性能,而域限制在音乐领域的无监督模型则在某些情况下能实现优异的有监督学习和无监督学习性能,表现出较高的效率和通用性。
Oct, 2022
本文研究应用自监督学习和多任务学习方法预训练音乐编码器,探索编码器结构、损失权重和自监督任务选择对下游音乐分类任务的影响。研究发现,使用多种音乐特定的自监督任务,结合合理的损失权重平衡,可以提高和推广到下游任务。
Feb, 2021
本论文提出一种 two-stage learning model,首先使用无监督学习将音频轨迹的局部频谱模式投射到高维稀疏空间中,并将其作为特征包进行总结。然后,在逐层无监督学习特征包的基础上初始化深度神经网络,结合标签标注对其进行精调。在 Magnatagatune 数据集上测试表明,该模型取得了高性能的效果。
Aug, 2015
本文介绍了一种基于转移学习的音乐分类和回归任务的方法,使用预训练的卷积网络提取出用于多个层次的特征向量进行音乐分类及回归。经实验证明,相较于传统的低、高层次的音乐特征和 MFCC 特征,使用卷积神经网络 (convnet) 作为特征提取方法的结果更好且具有通用性。
Mar, 2017
本研究旨在通过使用多任务学习和自监督学习提高基于 WaveNet 的大型神经网络在音频数据上的标签效率,并证明在有限的标记训练数据场景下,同时训练其他自监督任务可以显著提高分类性能。
Oct, 2019
本文提出了一种基于卷积神经网络(CNN)架构的音乐自动标记技术,该技术融合了多层级和多尺度特征,通过三个步骤的训练方式在音乐自动标记中表现出高效性并在 MagnaTagATune 数据集和 Million Song 数据集上超越了之前的 state-of-the-arts。实验证明该架构同样适用于迁移学习。
本文介绍了一个新的大规模音乐数据集 MusicNet,旨在为音乐研究的机器学习方法提供监督和评估,该数据集由 10 位作曲家创作的 11 种乐器的数百个自由许可的古典音乐录音以及关于它们的时间标签组成,其中包含的多标签分类任务以及多项基于机器学习结构的性能评估表明了末端到末端的神经网络在音符预测方面的学习效果最佳。
Nov, 2016
在音乐流媒体平台时代,自动标记音乐音频的任务引起了广泛关注,驱使研究人员设计旨在提高标准数据集上性能指标的方法。本研究探讨了可解释性在自动音乐标记领域的相关性,构建了一个包含三种不同信息提取技术的工作流程,并使用这些特征训练了一个可解释的机器学习模型进行标签预测。通过在 MTG-Jamendo 数据集和 GTZAN 数据集上进行实验,我们的方法在两个任务中均超过了基线模型的性能,并在某些情况下展现出与当前最先进方法的竞争力。我们得出结论,在某些情况下,解释性的价值超过了性能的下降。
Dec, 2023
本研究提出了一种算法,在仅有粗糙分类标签的情况下,学习目标任务的细粒度模式并获得理论保证,实验表明该方法可以显着提高在目标任务上的表现。
May, 2020
本文提出了一种名为 Music FaderNets 的框架,该框架能够使用有限的数据来学习高层次的 feature representations,并通过对应的低层次属性进行建模,使用高斯混合变分自编码器 (GM-VAEs) 进行半监督聚类,实现高层次特征的推断,进而可以将该框架应用于不同情感状态下的风格转换任务中。
Jul, 2020