MUSIC: 多段信息编码的自监督表征学习
本文研究了不同对比自监督学习方案学习的音乐音频表示,并在不同的音乐信息检索任务中经验性地评估嵌入向量,以分析结果并讨论对不同 MIR 任务的适当对比学习策略方向,表明这些表示传达了关于音乐的听觉特征的综合信息,尽管每个自我监督策略在某些方面的信息方面有效。
Jul, 2022
我们通过自监督对比学习的方法,研究了如何减轻多模态音乐检索模型中标注数据稀缺的限制,并提出了经过预训练的模型能够更好地检索音乐片段,并在交叉模态的作品识别任务中获得更好的检索质量的观察结果。
Sep, 2023
本文提出了一种新的文本监督预训练方法 MUSER,采用音频 - 频谱 - 文本三模态对比学习框架,通过任何形式的元数据模板来帮助文本输入,从标记音频中挖掘更好的音乐序列表示,具有比当前数据密集型预训练方法更灵活地适应下游任务以及只需要 0.056%的预训练数据就能达到最先进性能的优势。
May, 2023
本文研究应用自监督学习和多任务学习方法预训练音乐编码器,探索编码器结构、损失权重和自监督任务选择对下游音乐分类任务的影响。研究发现,使用多种音乐特定的自监督任务,结合合理的损失权重平衡,可以提高和推广到下游任务。
Feb, 2021
通过自监督学习的方式,利用对比预测编码作为辅助技术最大化单模输入对和多模态融合结果之间的互信息,通过最大化互信息,促进多模态融合与单模态之间更好的对齐,从而提高多模态融合的性能。
Nov, 2023
通过使用 Siamese 网络架构和预训练及微调流程,本研究旨在通过表示学习来学习旋律和其变化之间的内在关系。实验证明,这两种方法相互补充,在检索任务中使精确度 - 召回率曲线下的面积提高了 12.6%。最后,我们可视化所获得的旋律表示,以直观地理解音乐作品的整体结构。据我们所知,这项工作在计算建模音乐旋律方面迈出了值得关注的一步,为未来的自动音乐创作和音乐信息检索应用奠定了基础。
Sep, 2023
本文提出了一种基于自监督学习的无监督语义图像分割的新方法,通过局部和全局高级别图像特征间的互信息最大化计算多个高级别特征,实现对不同语义类别的图像分割和互信息最大化的两阶段学习过程,并在已有数据集和引入的 COCO-Persons 数据集上相对推进了 26%(基于像素准确率评估)。
Oct, 2021
本文提出了一种名为 MusiCoder 的自监督音乐声学表示学习方法,通过掩蔽重建预训练,自适应 BERT 式的自注意力双向转换器架构,该方法在两个下游音乐注释任务中均优于现有模型,表明了自监督学习方法理解音乐的巨大潜力。
Aug, 2020