音乐对比语音学习

Aug, 2022

Contrastive Audio-Language Learning for Music

Ilaria Manco, Emmanouil Benetos, Elio Quinton, György Fazekas

TL;DR本研究旨在探讨通过自然语言与音频之间的跨模态学习实现音乐语义理解任务的方法，提出了一种名为 MusCALL 的框架，采用双重编码器架构进行跨模态学习，实现音频和描述语句的对齐，生成用于文本到音频和音频到文本检索的多模式嵌入，实验表明我们的方法在音频与文本检索任务中比基线方法表现更好，并且可成功扩展应用于流派分类和自动标签的零样本转移场景。

Abstract

As one of the most intuitive interfaces known to humans, natural language has the potential to mediate many tasks that involve human-computer interaction, especially in application-focused fields like music information

natural language music information retrieval cross-modal learning dual-encoder architecture multimodal alignment

发现论文，激发创造

基于对比学习的多语言音频与歌词对齐

本文介绍了一种新颖的歌词对齐系统，使用对抗学习导出跨模态嵌入，不仅训练简单、能使用弱标注数据、学习强大的文本模型，而且可用于多语言和获得了标准数据集下平均绝对误差小于 0.2 秒的最佳结果。

Jun, 2023

音频视频领域的对比学习探索

通过对音频和视频模态的对比学习，研究表明预训练网络在音乐视频的标签和流派分类任务上优于对比学习方法，通过定性分析了解对比学习在音乐视频中的困难并提出未来工作的可能方向。

Sep, 2023

CLARA：音频表征获取的多语言对比学习

提出了一种利用对比学习进行多语言语音和声音表示学习的新框架，旨在通过减少数据依赖性、改善各种语言和条件下的泛化能力，实现多语言共享表示，以便在有限的目标语言数据中促进跨语言转移。通过从多语言数据中自我监督学习情感表示，该方法在情感识别、音频分类和检索基准测试中展示了最先进的性能，为获得跨语言和声学条件下的共享和泛化语音表示提供了一种有效的方法。

Oct, 2023

RECAP: 检索增强音乐字幕生成器

通过对多模态数据的构建和深度学习模型的训练，本文提出了一种在音频和歌词之间学习对准关系的方法，并通过此方法优化跨模态对齐，并为音乐搜索和推荐提供了理论和实证结果。

Dec, 2022

自监督对比学习用于稳健的音乐 - 乐谱检索系统

我们通过自监督对比学习的方法，研究了如何减轻多模态音乐检索模型中标注数据稀缺的限制，并提出了经过预训练的模型能够更好地检索音乐片段，并在交叉模态的作品识别任务中获得更好的检索质量的观察结果。

Sep, 2023

大规模对比语音语言预训练：特征融合与关键词生成式扩充

本文提出了一个对比学习的流程，通过语音数据和自然语言描述来开发一个音频表示，构建了一个对比语音 - 语言预训练模型，通过 LAION-Audio-630K 数据集，并将特征融合机制和关键词 - 标题增强等机制纳入模型设计来增强模型的处理能力，在三个任务中检验模型表现，取得了优秀的性能表现。

Nov, 2022

基于语言的音频检索：收敛绑定层和对比损失

本文介绍了一种简单，可扩展的架构，将语音和文本编码器结合在一起，并使用对比损失来显著提高基线模型的性能。通过使用预训练模型，无需微调即可在极低的训练内存要求下实现优异的语音检索表现。实验结果表明，采用我们的方法组合可以显著提高基线分数。

Jun, 2022

AudioSetMix: 用 LLM 辅助增强音频 - 语言数据集

我们通过增加自然语言标签和相应的音频信号处理操作，使用大型语言模型提供了一个高质量的训练数据集，该数据集在文本和音频相关模型的基准测试中提供了多样化且更好对齐的示例，从而改善了模型的性能。

May, 2024

音频文本跨模态表示的无监督改进

本文研究了使用无配对数据进行无监督学习的方法，结合领域特定的有软标签的对比损失方法可以显著提高跨模态音频 - 文本表示学习的效果及其在零样本分类任务中的性能。

May, 2023

音频表示的多格式对比学习

本研究通过多种不同格式的单一模态对比学习框架，最大程度地提高音频表示的有效性，取得了一定的效果。在 AudioSet 和 ESC-50 分类任务上，我们的声音单一方法取得了新的最佳结果，平均精度为 0.376，准确率为 90.5％。

Mar, 2021