音乐表征的对比学习
本文基于 SimCLR 的前期工作,提出了适用于音频数据的各种数据增强方案,并调查了它们对预测性能的影响,同时证明了采用时频音频特征训练,在监督和对比损失同时约束下的模型可以获得优秀的音频表示。在少量标注数据的情况下,该方法明显地改善了预测性能,同时比自监督训练更快地收敛并具有更好的表示能力。
Oct, 2020
SimCLR 是一种简单的对比学习框架,通过定义有效的预测任务、引入可学习的非线性变换以及使用大型批次和更多的训练步骤来提高对比学习的效果,在 ImageNet 数据集上实现了比以往方法更好的自监督和半监督学习结果。
Feb, 2020
本文研究了不同对比自监督学习方案学习的音乐音频表示,并在不同的音乐信息检索任务中经验性地评估嵌入向量,以分析结果并讨论对不同 MIR 任务的适当对比学习策略方向,表明这些表示传达了关于音乐的听觉特征的综合信息,尽管每个自我监督策略在某些方面的信息方面有效。
Jul, 2022
通过多通道对比学习框架(MC-SimCLR),本研究展示了一个简单的方法来对空间音频的 'what' 和 'where' 进行编码。通过从无标签的空间音频中学习联合的频谱和空间表示,MC-SimCLR 能够在事件分类和声音定位等下游任务中提高效果。
Sep, 2023
本文提出了一种名为 Speech SimCLR 的新自监督学习方法,通过对原始语音和其频谱图进行增强,结合对比损失最大化潜在空间中不同增强样本的一致性以及输入表示的重构损失函数进行训练,取得了在语音情感识别和语音识别上的良好结果。
Oct, 2020
我们通过自监督对比学习的方法,研究了如何减轻多模态音乐检索模型中标注数据稀缺的限制,并提出了经过预训练的模型能够更好地检索音乐片段,并在交叉模态的作品识别任务中获得更好的检索质量的观察结果。
Sep, 2023
通过对音频和视频模态的对比学习,研究表明预训练网络在音乐视频的标签和流派分类任务上优于对比学习方法,通过定性分析了解对比学习在音乐视频中的困难并提出未来工作的可能方向。
Sep, 2023
提出了一种利用对比学习进行多语言语音和声音表示学习的新框架,旨在通过减少数据依赖性、改善各种语言和条件下的泛化能力,实现多语言共享表示,以便在有限的目标语言数据中促进跨语言转移。通过从多语言数据中自我监督学习情感表示,该方法在情感识别、音频分类和检索基准测试中展示了最先进的性能,为获得跨语言和声学条件下的共享和泛化语音表示提供了一种有效的方法。
Oct, 2023
COLA 是一种基于对比学习的自监督预训练方法,用于学习音频的通用表示,通过在大规模的 Audioset 数据库上进行预训练,使得其在包括语音、音乐、动物声音和声学场景等 9 项分类任务中性能显著优于之前的自监督系统,并进一步通过消融研究指出了关键的设计选择。
Oct, 2020
MaCLR 是一种新方法,通过视觉和运动模态之间的交叉模态学习,在 RGB 视频剪辑和动作路径之间富化标准对比学习目标,从而更关注前景运动区域,达到了自监督下行任务的最先进性能。
Jun, 2021