MusiLingo：使用预训练语言模型在音乐字幕和查询响应中连接音乐和文本

Sep, 2023

MusiLingo：使用预训练语言模型在音乐字幕和查询响应中连接音乐和文本

MusiLingo: Bridging Music and Text with Pre-trained Language Models for Music Captioning and Query Response

Zihao Deng, Yinghao Ma, Yudong Liu, Rongchen Guo, Ge Zhang...

TL;DRMusiLingo 是一个创新系统，通过使用单个投射层将来自预训练的冻结音乐音频模型 MERT 和冻结的 LLaMA 语言模型中的音乐表示对齐，弥合了音乐音频和文本环境之间的差距，从而在音乐字幕生成和音乐相关的查询响应中展现了竞争性能。

Abstract

large language models (LLMs) have shown immense potential in multimodal applications, yet the convergence of textual and musical domains remains relatively unexplored. To address this gap, we present musilingo, a

large language models multimodal applications musilingo music caption generation music-related query responses

发现论文，激发创造

音乐理解 LLaMA：通过问题回答和字幕提升文本至音乐生成

文中提出的 MU-LLaMA 模型通过 MusicQA 数据集的训练，在音乐问答和音乐配音生成方面取得了出色的表现，超越了当前领先的模型，并为 T2M-Gen 研究领域带来了有希望的进展。

Aug, 2023

ChatMusician：理解和生成音乐的 LLM 方法

我们介绍了 ChatMusician，这是一个开源的大型语言模型，基于在 ABC 符号表示和音乐作为第二语言上进行连续预训练和微调的 LLaMA2，它能够理解和生成音乐，并能够创作结构良好、完整的音乐作品，超过了 GPT-4 基准模型。

Feb, 2024

音乐对比语音学习

本研究旨在探讨通过自然语言与音频之间的跨模态学习实现音乐语义理解任务的方法，提出了一种名为 MusCALL 的框架，采用双重编码器架构进行跨模态学习，实现音频和描述语句的对齐，生成用于文本到音频和音频到文本检索的多模式嵌入，实验表明我们的方法在音频与文本检索任务中比基线方法表现更好，并且可成功扩展应用于流派分类和自动标签的零样本转移场景。

Aug, 2022

MeLFusion: 使用扩散模型合成基于图像和语言线索的音乐

音乐综合，机器学习模型，MeLFusion，视觉信息，和 IMSM 对生成的音乐质量产生显著的影响。

Jun, 2024

莫扎特之触：基于预训练大模型的轻量级多模态音乐生成框架

AI-Generated Content (AIGC) has advanced rapidly in recent years, but research on multi-modal music generation is limited. This paper presents a framework called Mozart's Touch that can generate music aligned with cross-modal inputs. The framework consists of three main components: Multi-modal Captioning Module, Large Language Model (LLM) Understanding & Bridging Module, and Music Generation Module. Using interpretable prompts and the LLM-Bridge method, the model outperforms current state-of-the-art models according to objective and subjective evaluations.

May, 2024

RECAP: 检索增强音乐字幕生成器

通过对多模态数据的构建和深度学习模型的训练，本文提出了一种在音频和歌词之间学习对准关系的方法，并通过此方法优化跨模态对齐，并为音乐搜索和推荐提供了理论和实证结果。

Dec, 2022

MuLan: 音乐音频与自然语言的联合嵌入

MuLan 是一种新型的声学模型，通过将音乐音频直接链接到自由形式的文字注释，构建与各种音乐流派和文本样式兼容的音频 - 文本表示，具有真正的零样本功能，可用于传输学习、零样本音乐标记、音乐领域语言理解和跨模态检索应用等。

Aug, 2022

基于语言引导的视频音乐推荐系统

该研究提出了一种音乐推荐的方法，允许用户使用自由形式的自然语言来引导音乐选择，解决了没有音乐文本描述的挑战，并使用文本合成方法训练了新的三模态模型，该模型的检索音频可通过与视频呈现的视觉风格和语言查询中描述的音乐风格、心情或器乐匹配，以匹配两个输入模态的准确性。

Jun, 2023

LLark: 一个用于音乐的多模态基础模型

音乐理解和 LLark 的多模态模型的数据集创建、多模态架构、以及基于开源音乐数据和模型进行训练的结果和代码。

Oct, 2023

使用音频指导的预训练语言模型解释歌曲歌词

本文提出了 BART-fusion 模型，用于从音乐音频和歌词中生成歌词解释，该模型结合了一个大规模预训练语言模型和一个音频编码器。实验结果显示，该模型能够更好地理解歌词和音乐，生成精确流畅的解释，并且可以帮助人们更准确地检索音乐。

Aug, 2022