从文本监督中学习音乐序列表示
本文研究了不同对比自监督学习方案学习的音乐音频表示,并在不同的音乐信息检索任务中经验性地评估嵌入向量,以分析结果并讨论对不同 MIR 任务的适当对比学习策略方向,表明这些表示传达了关于音乐的听觉特征的综合信息,尽管每个自我监督策略在某些方面的信息方面有效。
Jul, 2022
本文提供了音频理解模型预训练策略的广泛比较分析,探讨了预训练数据集(音乐或通用音频)和预训练方法(有监督或无监督)对下游任务的影响,特别是在音乐领域的多项任务中,超大规模有人工注释的音乐数据集上训练的有监督模型实现了最先进的性能,而域限制在音乐领域的无监督模型则在某些情况下能实现优异的有监督学习和无监督学习性能,表现出较高的效率和通用性。
Oct, 2022
本文提出了 MUlti-Segmental Informational Coding(MUSIC)方法,使用信息理论测量直接优化划分样本到不同语义聚类的多个划分部分,以避免最小解,证明了 MUSIC 比最相关的 Barlow Twins 和 VICReg 方法在 ImageNet 分类方面线性探测时具有更好的结果。
Jun, 2022
本文研究应用自监督学习和多任务学习方法预训练音乐编码器,探索编码器结构、损失权重和自监督任务选择对下游音乐分类任务的影响。研究发现,使用多种音乐特定的自监督任务,结合合理的损失权重平衡,可以提高和推广到下游任务。
Feb, 2021
本文提出了一种名为 MusiCoder 的自监督音乐声学表示学习方法,通过掩蔽重建预训练,自适应 BERT 式的自注意力双向转换器架构,该方法在两个下游音乐注释任务中均优于现有模型,表明了自监督学习方法理解音乐的巨大潜力。
Aug, 2020
该文章提出了一种半监督的多模态文本识别方法(SemiMTR),通过使用自监督学习和监督学习相结合的单一阶段,将现有的多模态场景文本识别方法拓展到了未标注数据的应用。该算法利用对视觉模型的预训练和语言模型的微调,同时在每个模态单独地应用连续性正则化方法进行训练,取得了在多个场景文本识别基准测试上的最新成果。
May, 2022
通过对多模态数据的构建和深度学习模型的训练,本文提出了一种在音频和歌词之间学习对准关系的方法,并通过此方法优化跨模态对齐,并为音乐搜索和推荐提供了理论和实证结果。
Dec, 2022
我们通过自监督对比学习的方法,研究了如何减轻多模态音乐检索模型中标注数据稀缺的限制,并提出了经过预训练的模型能够更好地检索音乐片段,并在交叉模态的作品识别任务中获得更好的检索质量的观察结果。
Sep, 2023
本文介绍了一个名为 Patchifier 的自监督模型,利用 NLP 和 CV 领域的自监督学习方法,将音乐的频谱图作为一系列图块,并对其特征进行捕捉。使用仅包含 16k 个音乐片段的 MTAT 数据集进行预训练。该模型应用于多个下游任务,并取得了令人满意的结果。同时,该工作证明了将音频视为一系列图块片段是有意义的。
Oct, 2022