多任务自监督预训练用于音乐分类
本文介绍了一种基于转移学习的音乐分类和回归任务的方法,使用预训练的卷积网络提取出用于多个层次的特征向量进行音乐分类及回归。经实验证明,相较于传统的低、高层次的音乐特征和 MFCC 特征,使用卷积神经网络(convnet)作为特征提取方法的结果更好且具有通用性。
Mar, 2017
本研究旨在通过使用多任务学习和自监督学习提高基于WaveNet的大型神经网络在音频数据上的标签效率,并证明在有限的标记训练数据场景下,同时训练其他自监督任务可以显著提高分类性能。
Oct, 2019
本文介绍了一种基于SimCLR的CLMR框架,用于音乐领域的自监督、对比学习,采用一系列基于音频数据的增强技术,可以在无需标记的情况下学习有用的音乐表示,并在MagnaTagATune和Million Song数据集上进行了评估,在小型标记数据集下具有较高的精度。
Mar, 2021
本文提出了一种自监督的音频表征学习方法并将其应用于多种非语音音频任务,这种自监督的预训练可以将标记数据需求减少三分之二,并在 AudioSet 基准测试中通过声音自主训练实现了 0.415 的平均平均精度(mAP)得分,在多个下游任务中,我们的 fine-tuned conformers 也超越或匹配以往以监督方式预训练的系统的性能。
Oct, 2021
本文研究了不同对比自监督学习方案学习的音乐音频表示,并在不同的音乐信息检索任务中经验性地评估嵌入向量,以分析结果并讨论对不同MIR任务的适当对比学习策略方向,表明这些表示传达了关于音乐的听觉特征的综合信息,尽管每个自我监督策略在某些方面的信息方面有效。
Jul, 2022
本文提供了音频理解模型预训练策略的广泛比较分析,探讨了预训练数据集(音乐或通用音频)和预训练方法(有监督或无监督)对下游任务的影响,特别是在音乐领域的多项任务中,超大规模有人工注释的音乐数据集上训练的有监督模型实现了最先进的性能,而域限制在音乐领域的无监督模型则在某些情况下能实现优异的有监督学习和无监督学习性能,表现出较高的效率和通用性。
Oct, 2022
提出了一个名为MT-SLVR的多任务自我监督框架,用于学习变化和不变性特征,提供了强大和灵活的功能,改善了多种音频领域的少样本分类任务分类性能。
May, 2023
通过使用两个音频方案data2vec1.0和Hubert,我们训练了$12$个自监督学习模型,并在13个不同的音乐信息检索任务中进行系统评估。我们的研究表明,使用音乐数据进行训练可以提高MIR任务性能,即使使用的是设计用于语音的模型,也能取得效果。但是,我们还发现现有的语音定向设计存在一些局限性,特别是在多声部信息建模方面。因此,我们为未来的音乐自监督学习策略和范式提供了实证建议。
Jul, 2023