从文本监督中学习音乐序列表示

May, 2023

Learning Music Sequence Representation from Text Supervision

Tianyu Chen, Yuan Xie, Shuai Zhang, Shaohan Huang, Haoyi Zhou...

TL;DR本文提出了一种新的文本监督预训练方法 MUSER，采用音频 - 频谱 - 文本三模态对比学习框架，通过任何形式的元数据模板来帮助文本输入，从标记音频中挖掘更好的音乐序列表示，具有比当前数据密集型预训练方法更灵活地适应下游任务以及只需要 0.056％的预训练数据就能达到最先进性能的优势。

Abstract

music representation learning is notoriously difficult for its complex human-related concepts contained in the sequence of numerical signals. To excavate better MUsic SEquence Representation from labeled audio, we propose a novel text-supervision →

music representation learning muser audio-spectrum-text contrastive learning meta-data pre-training

发现论文，激发创造

音乐音频表示的适当对比自监督学习策略

本文研究了不同对比自监督学习方案学习的音乐音频表示，并在不同的音乐信息检索任务中经验性地评估嵌入向量，以分析结果并讨论对不同 MIR 任务的适当对比学习策略方向，表明这些表示传达了关于音乐的听觉特征的综合信息，尽管每个自我监督策略在某些方面的信息方面有效。

Jul, 2022

音乐理解的有监督和无监督音频表示学习

本文提供了音频理解模型预训练策略的广泛比较分析，探讨了预训练数据集（音乐或通用音频）和预训练方法（有监督或无监督）对下游任务的影响，特别是在音乐领域的多项任务中，超大规模有人工注释的音乐数据集上训练的有监督模型实现了最先进的性能，而域限制在音乐领域的无监督模型则在某些情况下能实现优异的有监督学习和无监督学习性能，表现出较高的效率和通用性。

Oct, 2022

MUSIC: 多段信息编码的自监督表征学习

本文提出了 MUlti-Segmental Informational Coding（MUSIC）方法，使用信息理论测量直接优化划分样本到不同语义聚类的多个划分部分，以避免最小解，证明了 MUSIC 比最相关的 Barlow Twins 和 VICReg 方法在 ImageNet 分类方面线性探测时具有更好的结果。

Jun, 2022

多任务自监督预训练用于音乐分类

本文研究应用自监督学习和多任务学习方法预训练音乐编码器，探索编码器结构、损失权重和自监督任务选择对下游音乐分类任务的影响。研究发现，使用多种音乐特定的自监督任务，结合合理的损失权重平衡，可以提高和推广到下游任务。

Feb, 2021

MusiCoder: 基于 Transformers 的通用音乐 - 声学编码器

本文提出了一种名为 MusiCoder 的自监督音乐声学表示学习方法，通过掩蔽重建预训练，自适应 BERT 式的自注意力双向转换器架构，该方法在两个下游音乐注释任务中均优于现有模型，表明了自监督学习方法理解音乐的巨大潜力。

Aug, 2020

多模态半监督学习文本识别

该文章提出了一种半监督的多模态文本识别方法（SemiMTR），通过使用自监督学习和监督学习相结合的单一阶段，将现有的多模态场景文本识别方法拓展到了未标注数据的应用。该算法利用对视觉模型的预训练和语言模型的微调，同时在每个模态单独地应用连续性正则化方法进行训练，取得了在多个场景文本识别基准测试上的最新成果。

May, 2022

RECAP: 检索增强音乐字幕生成器

通过对多模态数据的构建和深度学习模型的训练，本文提出了一种在音频和歌词之间学习对准关系的方法，并通过此方法优化跨模态对齐，并为音乐搜索和推荐提供了理论和实证结果。

Dec, 2022

自监督对比学习用于稳健的音乐 - 乐谱检索系统

我们通过自监督对比学习的方法，研究了如何减轻多模态音乐检索模型中标注数据稀缺的限制，并提出了经过预训练的模型能够更好地检索音乐片段，并在交叉模态的作品识别任务中获得更好的检索质量的观察结果。

Sep, 2023

光谱图是补丁的序列

本文介绍了一个名为 Patchifier 的自监督模型，利用 NLP 和 CV 领域的自监督学习方法，将音乐的频谱图作为一系列图块，并对其特征进行捕捉。使用仅包含 16k 个音乐片段的 MTAT 数据集进行预训练。该模型应用于多个下游任务，并取得了令人满意的结果。同时，该工作证明了将音频视为一系列图块片段是有意义的。

Oct, 2022

多模态自监督学习通用音频表示

通过使用多模态框架，在训练音频表征时利用视频信息和加入混合样本的数据增强，本研究的对比学习框架成功地实现了在非语义音频任务上的领先水平。

Apr, 2021