基于扩散模型的文本生成音乐技术 ERNIE-Music

Feb, 2023

基于扩散模型的文本生成音乐技术 ERNIE-Music

ERNIE-Music: Text-to-Waveform Music Generation with Diffusion Models

Pengfei Zhu, Chao Pang, Shuohuan Wang, Yekun Chai, Yu Sun...

TL;DR本文提出了一种使用扩散模型的文本到音频波形音乐生成模型，通过收集匹配的文本 - 音乐数据集，证明了自由格式文本提示的有效性，提高了波形产生的相关性，并且其生成的音乐优于以往的作品，具有更高的多样性、质量和文本 - 音乐相关性。

Abstract

In recent years, there has been an increased popularity in image and speech generation using diffusion models. However, directly generating music waveforms from free-form text prompts is still under-explored. In this paper, we propose the first →

diffusion models text-to-waveform music generation music tags waveform domain text-music relevance

发现论文，激发创造

Moûsai: 长上下文潜在扩散的文本生成音乐

本研究探索了扩散模型在生成音乐方面的潜力，提出了一种级联的潜在扩散方法来根据文本描述生成高质量的立体声音乐，同时开源相关代码和音频样本以促进领域内未来研究。

Jan, 2023

探索文本生成音乐中的个性化方法

调查了在 few-shot 设置中对文本到音乐扩散模型进行个性化的工作。首次探索了将预训练的文本到音频扩散器与两种常用的个性化方法结合的组合。实验了音频特定数据增强对系统整体性能的影响，并评估了不同的训练策略。构建了一个包含提示和音乐片段的新数据集进行评估，使用基于嵌入和基于音乐的量化评估指标，以及用户研究进行定性评估。分析表明相似度度量与用户偏好一致，并且当前的个性化方法更容易学习到节奏音乐结构而非旋律。该研究的代码、数据集和示例资料对研究社区开放。

Sep, 2023

MusicMagus：零射手风琴文本音乐编辑通过扩散模型

通过操纵潜空间并添加额外限制，本研究介绍了一种新颖方法来编辑文本生成的音乐，实现修改特定属性（如体裁、情绪和乐器），同时保持其他方面的不变。实验结果表明，在风格和音色转移评估中，与零样本和某些监督基线相比，我们的方法表现出卓越的性能。此外，我们展示了本方法在真实音乐编辑场景中的实际适用性。

Feb, 2024

JEN-1: 文本引导的全局音乐生成与全方位扩散模型

JEN-1 是一个通用高保真度的文本到音乐生成模型，通过整合自回归和非自回归训练技术，并且通过上下文学习实现文本引导的音乐生成、音乐修复和延续等多种生成任务，相对于先前的方法，在文本与音乐对齐、音乐质量和计算效率方面展现出优越的性能。

Aug, 2023

Diffsound: 文本生成音效的离散扩散模型

本研究提出了一种基于非自回归解码器、矢量量化变分自编码器、谱图及声码器的文本到声音生成框架，在声音生成效果和速度方面较传统的自回归解码器都有较大的提升。

Jul, 2022

DiffWave：一种用于音频合成的通用扩散模型

本文介绍了 DiffWave，这是一种用于条件和非条件波形生成的多功能扩散概率模型。该模型高效地通过 Markov 链将白噪声信号转化为结构化波形，并通过特定的数据似然变分界限进行优化训练。DiffWave 在各种波形生成任务中均能生成高保真度音频，并在音频质量方面显著优于其他自回归和 GAN-based 波形模型。

Sep, 2020

Tango 2：通过直接偏好优化对齐基于扩散的文本到音频生成

研究使用 diffusion-DPO（直接偏好优化）损失在偏好数据集上对 Tango 文本到音频模型进行微调，以改进音频生成性能，并且在自动和手动评估指标上显示出优于 Tango 和 AudioLDM2 的效果。

Apr, 2024

基于潜在扩散模型的文本驱动 Foley 声音生成

本研究提出了一种基于扩散模型的 Foley 声音生成系统，该系统使用文本条件进行预测。通过使用 CLAP 技术的迁移学习，将该模型初始化地进行了预训练，以缓解数据不足问题。实验结果表明，该方法显着提高了声音生成性能，使得该系统在 DCASE Challenge 2023 任务 7 中排名第一。

Jun, 2023

MeLFusion: 使用扩散模型合成基于图像和语言线索的音乐

音乐综合，机器学习模型，MeLFusion，视觉信息，和 IMSM 对生成的音乐质量产生显著的影响。

Jun, 2024

原始音乐生成的渐进蒸馏扩散

应用一种新的深度学习方法来生成原始音频文件，并使用 1D U-Net 的渐进蒸馏扩散模型实现无条件音乐生成，并比较不同扩散参数的价值和实现。

Jul, 2023