MuLan: 音乐音频与自然语言的联合嵌入

Aug, 2022

MuLan: 音乐音频与自然语言的联合嵌入

MuLan: A Joint Embedding of Music Audio and Natural Language

Qingqing Huang, Aren Jansen, Joonseok Lee, Ravi Ganti, Judith Yue Li...

TL;DRMuLan 是一种新型的声学模型，通过将音乐音频直接链接到自由形式的文字注释，构建与各种音乐流派和文本样式兼容的音频 - 文本表示，具有真正的零样本功能，可用于传输学习、零样本音乐标记、音乐领域语言理解和跨模态检索应用等。

Abstract

music tagging and content-based retrieval systems have traditionally been constructed using pre-defined ontologies covering a rigid set of music attributes or text queries. This paper presents MuLan: a first attempt at a new generation of →

music tagging acoustic models natural language descriptions embedding model zero-shot functionalities

发现论文，激发创造

零样本音乐标签的联合音乐和语言注意力模型

我们提出了一个零样本音频标记系统，使用 JMLA 模型来解决开放式音乐标记问题，并通过引入稠密注意连接来提高编码器和解码器之间的信息流动。我们收集了一个大规模的音乐和描述数据集，并使用 ChatGPT 将原始描述转化为形式化和多样化的描述以训练 JMLA 模型。我们的提出的 JMLA 系统在 GTZAN 数据集上实现了 64.82% 的零样本音频标记准确率，优于以前的零样本系统，并在 FMA 和 MagnaTagATune 数据集上实现了与以前系统相当的结果。

Oct, 2023

音乐对比语音学习

本研究旨在探讨通过自然语言与音频之间的跨模态学习实现音乐语义理解任务的方法，提出了一种名为 MusCALL 的框架，采用双重编码器架构进行跨模态学习，实现音频和描述语句的对齐，生成用于文本到音频和音频到文本检索的多模式嵌入，实验表明我们的方法在音频与文本检索任务中比基线方法表现更好，并且可成功扩展应用于流派分类和自动标签的零样本转移场景。

Aug, 2022

MuLan: 多模态 - LLM 进化多对象扩散智能体

通过渐进式多对象生成、规划和反馈控制，我们开发了一种无需训练的多模态语言模型代理（MuLan），以解决现有文本到图像模型在处理多对象、对象空间位置、相对大小、重叠和属性绑定方面的困难。

Feb, 2024

音乐理解 LLaMA：通过问题回答和字幕提升文本至音乐生成

文中提出的 MU-LLaMA 模型通过 MusicQA 数据集的训练，在音乐问答和音乐配音生成方面取得了出色的表现，超越了当前领先的模型，并为 T2M-Gen 研究领域带来了有希望的进展。

Aug, 2023

LLark: 一个用于音乐的多模态基础模型

音乐理解和 LLark 的多模态模型的数据集创建、多模态架构、以及基于开源音乐数据和模型进行训练的结果和代码。

Oct, 2023

MusiLingo：使用预训练语言模型在音乐字幕和查询响应中连接音乐和文本

MusiLingo 是一个创新系统，通过使用单个投射层将来自预训练的冻结音乐音频模型 MERT 和冻结的 LLaMA 语言模型中的音乐表示对齐，弥合了音乐音频和文本环境之间的差距，从而在音乐字幕生成和音乐相关的查询响应中展现了竞争性能。

Sep, 2023

MuChin：评估音乐领域语言模型的中国口语描述基准

MuChin 是第一个用于评估多模态大型语言模型在理解和描述音乐方面性能的中文口语音乐描述基准，利用创新的多人、多阶段保障方法和多维、高精度的音乐注释数据集 (CaiMD)，使用 MuChin 评估现有音乐理解模型对于提供口语音乐描述的能力，并开源相关数据和评分代码。

Feb, 2024

基于语言引导的视频音乐推荐系统

该研究提出了一种音乐推荐的方法，允许用户使用自由形式的自然语言来引导音乐选择，解决了没有音乐文本描述的挑战，并使用文本合成方法训练了新的三模态模型，该模型的检索音频可通过与视频呈现的视觉风格和语言查询中描述的音乐风格、心情或器乐匹配，以匹配两个输入模态的准确性。

Jun, 2023

融合音频和元数据嵌入提升基于语言的音频检索

通过利用音频元数据作为额外线索，以了解音频信号内容并将其与文本查询进行匹配，本文研究了一种混合检索系统。我们通过实验使用通常附加在音频录音上的元数据，如关键词和自然语言描述，并调查了融合音频和元数据的后期和中间级融合策略。我们的混合方法通过关键词元数据和后期融合，相较于基于内容的基线，分别在 ClothoV2 和 AudioCaps 基准上将检索性能提高了 2.36 和 3.69 个点，mAP@10。

Jun, 2024

基于对比学习的多语言音频与歌词对齐

本文介绍了一种新颖的歌词对齐系统，使用对抗学习导出跨模态嵌入，不仅训练简单、能使用弱标注数据、学习强大的文本模型，而且可用于多语言和获得了标准数据集下平均绝对误差小于 0.2 秒的最佳结果。

Jun, 2023