音乐理解 LLaMA：通过问题回答和字幕提升文本至音乐生成

Aug, 2023

音乐理解 LLaMA：通过问题回答和字幕提升文本至音乐生成

Music Understanding LLaMA: Advancing Text-to-Music Generation with Question Answering and Captioning

Shansong Liu, Atin Sakkeer Hussain, Chenshuo Sun, Ying Shan

TL;DR文中提出的 MU-LLaMA 模型通过 MusicQA 数据集的训练，在音乐问答和音乐配音生成方面取得了出色的表现，超越了当前领先的模型，并为 T2M-Gen 研究领域带来了有希望的进展。

Abstract

text-to-music generation (T2M-Gen) faces a major obstacle due to the scarcity of large-scale publicly available music datasets with natural language captions. To address this, we propose the music understanding llama

text-to-music generation music understanding llama music-related questions music caption generation musicqa dataset

发现论文，激发创造

AQUALLM：利用大型语言模型生成音频问答数据

这篇研究论文介绍了一种基于大型语言模型的可伸缩的 AQA 数据生成流程 (AQUALLM 框架)，利用现有的音频描述注释并结合最先进的语言模型生成了丰富、高质量的 AQA 数据集，同时提供了三个广泛和高质量的 AQA 基准数据集，该框架和数据集推动了 AQA 研究的进展，并且所训练的模型在性能上优于现有的最先进模型，而且相比人工注释的训练数据，本数据集上训练的模型表现出更强的泛化能力。

Dec, 2023

MusiLingo：使用预训练语言模型在音乐字幕和查询响应中连接音乐和文本

MusiLingo 是一个创新系统，通过使用单个投射层将来自预训练的冻结音乐音频模型 MERT 和冻结的 LLaMA 语言模型中的音乐表示对齐，弥合了音乐音频和文本环境之间的差距，从而在音乐字幕生成和音乐相关的查询响应中展现了竞争性能。

Sep, 2023

ChatMusician：理解和生成音乐的 LLM 方法

我们介绍了 ChatMusician，这是一个开源的大型语言模型，基于在 ABC 符号表示和音乐作为第二语言上进行连续预训练和微调的 LLaMA2，它能够理解和生成音乐，并能够创作结构良好、完整的音乐作品，超过了 GPT-4 基准模型。

Feb, 2024

通过生成性数据增强提高特定领域问答小语言模型的效果：Dr. LLaMA

介绍了 Dr. LLaMA，这是一种通过使用大型语言模型进行生成式数据增强来改善小型语言模型的方法，主要关注医学问答任务和 PubMedQA 数据集。研究表明，LLMs 可以有效地改善和多样化问题 - 答案对，从而在微调后使得规模更小的模型获得更好的领域特定 QA 数据集性能。该研究特别强调了在领域特定的问答任务中使用 LLMS 所面临的挑战，并建议了解决这些限制的潜在研究方向，旨在创建更高效、更有能力的专门应用模型。

May, 2023

Video-LLaMA: 一种面向视频理解的指令优化的音视频语言模型

Video-LLaMA 是一种多模态框架，通过将预训练的视觉和音频编码器与预训练的大型语言模型结合，实现对视频内容的理解，具有捕捉视觉场景中的时间变化和整合音频 - 视觉信号等优势，因此被视为具有潜力的音视频 AI 助手原型。

Jun, 2023

检索辅助文本转语音生成

我们提出了一种用于文本到音频生成的简单的检索增强方法，通过使用检索到的音频文本数据对 TTA 模型的学习进行指导，从而改善了 AudioLDM 模型在长尾数据集上的性能，在 AudioCaps 数据集上，我们的改进模型 Re-AudioLDM 以巨大的优势超越了现有方法，能够生成逼真的音频并具备在复杂场景、罕见音频类别甚至未见过音频类型的潜力。

Sep, 2023

MusicLDM: 使用节奏同步混合策略增强文本生成音乐中的新颖性

通过构建一种文本到音乐模型，并利用分布式扩散模型和音频广义线性模型来进行训练以生成新音乐，解决了音乐生成过程中的数据不足、版权和抄袭等问题。同时通过节拍跟踪和两种不同的数据增强策略，即拍子同步音频混合和拍子同步潜在混合，实现对训练数据的重组，从而生成多样化且保持风格一致的音乐。最终，通过基于对比语音 - 音频预训练模型的评估指标，进一步证明了所提出的音乐生成模型和拍子同步混合策略能够提高生成音乐的质量、创新性和与输入文本的对应关系。

Aug, 2023

使用指令调整的 LLM 和潜在扩散模型生成文本到语音

本研究采用基于指令调整的大型语言模型 Flan-T5 作为文本编码器，通过使用基于声音压力级的声音混合来进行训练集增强，从而取得了比 AudioLDM 更好的结果，成为了生成文字描述音频的任务中的最佳选择。

Apr, 2023

AudioLDM：使用潜在扩散模型进行文本到音频生成

本文介绍了一种基于潜在空间的 Text-to-audio（TTA）系统 AudioLDM，它使用对比语音 - 语言预训练（CLAP）潜在信息学习连续音频表示，并以文本嵌入作为采样条件，从而在生成质量和计算效率方面具有优势，实测效果接近官方记录，并可以进行零 - shot 文本引导音频操作，如风格转移。

Jan, 2023

MuLan: 音乐音频与自然语言的联合嵌入

MuLan 是一种新型的声学模型，通过将音乐音频直接链接到自由形式的文字注释，构建与各种音乐流派和文本样式兼容的音频 - 文本表示，具有真正的零样本功能，可用于传输学习、零样本音乐标记、音乐领域语言理解和跨模态检索应用等。

Aug, 2022