MuLan: 音乐音频与自然语言的联合嵌入
我们提出了一个零样本音频标记系统,使用 JMLA 模型来解决开放式音乐标记问题,并通过引入稠密注意连接来提高编码器和解码器之间的信息流动。我们收集了一个大规模的音乐和描述数据集,并使用 ChatGPT 将原始描述转化为形式化和多样化的描述以训练 JMLA 模型。我们的提出的 JMLA 系统在 GTZAN 数据集上实现了 64.82% 的零样本音频标记准确率,优于以前的零样本系统,并在 FMA 和 MagnaTagATune 数据集上实现了与以前系统相当的结果。
Oct, 2023
本研究旨在探讨通过自然语言与音频之间的跨模态学习实现音乐语义理解任务的方法,提出了一种名为 MusCALL 的框架,采用双重编码器架构进行跨模态学习,实现音频和描述语句的对齐,生成用于文本到音频和音频到文本检索的多模式嵌入,实验表明我们的方法在音频与文本检索任务中比基线方法表现更好,并且可成功扩展应用于流派分类和自动标签的零样本转移场景。
Aug, 2022
通过渐进式多对象生成、规划和反馈控制,我们开发了一种无需训练的多模态语言模型代理(MuLan),以解决现有文本到图像模型在处理多对象、对象空间位置、相对大小、重叠和属性绑定方面的困难。
Feb, 2024
文中提出的 MU-LLaMA 模型通过 MusicQA 数据集的训练,在音乐问答和音乐配音生成方面取得了出色的表现,超越了当前领先的模型,并为 T2M-Gen 研究领域带来了有希望的进展。
Aug, 2023
MusiLingo 是一个创新系统,通过使用单个投射层将来自预训练的冻结音乐音频模型 MERT 和冻结的 LLaMA 语言模型中的音乐表示对齐,弥合了音乐音频和文本环境之间的差距,从而在音乐字幕生成和音乐相关的查询响应中展现了竞争性能。
Sep, 2023
MuChin 是第一个用于评估多模态大型语言模型在理解和描述音乐方面性能的中文口语音乐描述基准,利用创新的多人、多阶段保障方法和多维、高精度的音乐注释数据集 (CaiMD),使用 MuChin 评估现有音乐理解模型对于提供口语音乐描述的能力,并开源相关数据和评分代码。
Feb, 2024
该研究提出了一种音乐推荐的方法,允许用户使用自由形式的自然语言来引导音乐选择,解决了没有音乐文本描述的挑战,并使用文本合成方法训练了新的三模态模型,该模型的检索音频可通过与视频呈现的视觉风格和语言查询中描述的音乐风格、心情或器乐匹配,以匹配两个输入模态的准确性。
Jun, 2023
通过利用音频元数据作为额外线索,以了解音频信号内容并将其与文本查询进行匹配,本文研究了一种混合检索系统。我们通过实验使用通常附加在音频录音上的元数据,如关键词和自然语言描述,并调查了融合音频和元数据的后期和中间级融合策略。我们的混合方法通过关键词元数据和后期融合,相较于基于内容的基线,分别在 ClothoV2 和 AudioCaps 基准上将检索性能提高了 2.36 和 3.69 个点,mAP@10。
Jun, 2024
本文介绍了一种新颖的歌词对齐系统,使用对抗学习导出跨模态嵌入,不仅训练简单、能使用弱标注数据、学习强大的文本模型,而且可用于多语言和获得了标准数据集下平均绝对误差小于 0.2 秒的最佳结果。
Jun, 2023