JEN-1: 文本引导的全局音乐生成与全方位扩散模型

Aug, 2023

JEN-1: 文本引导的全局音乐生成与全方位扩散模型

JEN-1: Text-Guided Universal Music Generation with Omnidirectional Diffusion Models

Peike Li, Boyu Chen, Yao Yao, Yikai Wang, Allen Wang...

TL;DRJEN-1 是一个通用高保真度的文本到音乐生成模型，通过整合自回归和非自回归训练技术，并且通过上下文学习实现文本引导的音乐生成、音乐修复和延续等多种生成任务，相对于先前的方法，在文本与音乐对齐、音乐质量和计算效率方面展现出优越的性能。

Abstract

music generation has attracted growing interest with the advancement of deep generative models. However, generating music conditioned on textual descriptions, known as →

music generation text-to-music jen-1 generative models computational efficiency

发现论文，激发创造

JEN-1 Composer: 一套高保真多轨音乐生成的统一框架

通过 JEN-1 Composer 框架，我们提出了一种统一的方法，通过一个模型来有效地建模多轨音乐的边际、条件和联合分布，从而实现了灵活生成多轨音乐。我们引入了一种课程培训策略，让模型逐步掌握从单轨生成到灵活生成多轨组合的过渡。量化和定性评估表明，JEN-1 Composer 在可控性和高保真多轨音乐合成方面具有最先进的性能，为交互式 AI 辅助音乐创作和作曲提供了重要进展。

Oct, 2023

JEN-1 梦幻造型师：通过关键参数调整实现个性化音乐概念学习

通过精调预训练的文本到音乐模型，本论文提出了一种新的方法来进行定制化的文本到音乐生成，利用参考音乐中的概念生成符合该概念的新音乐，并通过关键参数调整解决过拟合问题，同时提出概念增强策略以区分多个概念，该方法在定性和定量评估中优于其他基线模型。

Jun, 2024

Moûsai: 长上下文潜在扩散的文本生成音乐

本研究探索了扩散模型在生成音乐方面的潜力，提出了一种级联的潜在扩散方法来根据文本描述生成高质量的立体声音乐，同时开源相关代码和音频样本以促进领域内未来研究。

Jan, 2023

基于扩散模型的文本生成音乐技术 ERNIE-Music

本文提出了一种使用扩散模型的文本到音频波形音乐生成模型，通过收集匹配的文本 - 音乐数据集，证明了自由格式文本提示的有效性，提高了波形产生的相关性，并且其生成的音乐优于以往的作品，具有更高的多样性、质量和文本 - 音乐相关性。

Feb, 2023

MusicMagus：零射手风琴文本音乐编辑通过扩散模型

通过操纵潜空间并添加额外限制，本研究介绍了一种新颖方法来编辑文本生成的音乐，实现修改特定属性（如体裁、情绪和乐器），同时保持其他方面的不变。实验结果表明，在风格和音色转移评估中，与零样本和某些监督基线相比，我们的方法表现出卓越的性能。此外，我们展示了本方法在真实音乐编辑场景中的实际适用性。

Feb, 2024

简单且可控的音乐生成

本文介绍了 MusicGen 这个单一语言模型，能够生成高质量的音乐样本，实现对文本描述或旋律特征的有条件创作，并经过广泛的实证评估，表明其在标准的文本到音乐基准上优于其他模型。

Jun, 2023

Instruct-MusicGen: 通过指令调整解锁面向音乐语言模型的文本到音乐编辑

通过预训练的 MusicGen 模型进行微调，我们引入 Instruct-MusicGen，它通过添加文本融合模块和音频融合模块，可以同时处理指令文本和音频输入，从而实现高效的文本转音乐编辑，提高了音乐语言模型在动态音乐制作环境中的应用广度。

May, 2024

StemGen: 一种音乐生成模型

使用深度学习技术的音乐音频的端到端生成最近有很大活动。本文提出了一种替代范式，用于生成能够听取和响应音乐上下文的音乐生成模型。使用非自回归、基于 Transformer 的模型架构构建了这样一个模型，并提出了一系列新颖的架构和采样改进方法。我们在开源和专有数据集上训练了这个描述的架构。我们使用标准质量度量和基于音乐信息检索描述符的新方法来评估生成的模型。所得到的模型在音频质量上达到了最先进的基于文本的模型水平，并且在音乐连贯性方面表现出很强的上下文关联性。

Dec, 2023

MeLFusion: 使用扩散模型合成基于图像和语言线索的音乐

音乐综合，机器学习模型，MeLFusion，视觉信息，和 IMSM 对生成的音乐质量产生显著的影响。

Jun, 2024

探索文本生成音乐中的个性化方法

调查了在 few-shot 设置中对文本到音乐扩散模型进行个性化的工作。首次探索了将预训练的文本到音频扩散器与两种常用的个性化方法结合的组合。实验了音频特定数据增强对系统整体性能的影响，并评估了不同的训练策略。构建了一个包含提示和音乐片段的新数据集进行评估，使用基于嵌入和基于音乐的量化评估指标，以及用户研究进行定性评估。分析表明相似度度量与用户偏好一致，并且当前的个性化方法更容易学习到节奏音乐结构而非旋律。该研究的代码、数据集和示例资料对研究社区开放。

Sep, 2023