Moûsai: 长上下文潜在扩散的文本生成音乐

Jan, 2023

Moûsai: 长上下文潜在扩散的文本生成音乐

Moûsai: Text-to-Music Generation with Long-Context Latent Diffusion

Flavio Schneider, Zhijing Jin, Bernhard Schölkopf

TL;DR本研究探索了扩散模型在生成音乐方面的潜力，提出了一种级联的潜在扩散方法来根据文本描述生成高质量的立体声音乐，同时开源相关代码和音频样本以促进领域内未来研究。

Abstract

The recent surge in popularity of diffusion models for image generation has brought new attention to the potential of these models in other areas of media synthesis. One area that has yet to be fully explored is the application of →

diffusion models music generation latent diffusion approach text-conditional open-source

发现论文，激发创造

潜在扩散的长篇音乐生成

通过对长时态上下文的生成模型进行训练，我们展示了可以产生长达 4 分 45 秒的音乐的可能性。我们的模型是在高度降采样的连续潜在表示（潜在速率为 21.5Hz）上操作的扩散变换器，根据音频质量和提示对齐的指标获得了最先进的生成结果，主观测试表明它能产生具有连贯结构的完整音乐。

Apr, 2024

ArchiSound: 漫射生成音频

该论文研究了扩散模型在音频生成方面的应用，提出了多种模型来满足音频生成的多方面需求，并通过简化工具库加速实时推理。

Jan, 2023

MusicMagus：零射手风琴文本音乐编辑通过扩散模型

通过操纵潜空间并添加额外限制，本研究介绍了一种新颖方法来编辑文本生成的音乐，实现修改特定属性（如体裁、情绪和乐器），同时保持其他方面的不变。实验结果表明，在风格和音色转移评估中，与零样本和某些监督基线相比，我们的方法表现出卓越的性能。此外，我们展示了本方法在真实音乐编辑场景中的实际适用性。

Feb, 2024

基于扩散模型的文本生成音乐技术 ERNIE-Music

本文提出了一种使用扩散模型的文本到音频波形音乐生成模型，通过收集匹配的文本 - 音乐数据集，证明了自由格式文本提示的有效性，提高了波形产生的相关性，并且其生成的音乐优于以往的作品，具有更高的多样性、质量和文本 - 音乐相关性。

Feb, 2023

MeLFusion: 使用扩散模型合成基于图像和语言线索的音乐

音乐综合，机器学习模型，MeLFusion，视觉信息，和 IMSM 对生成的音乐质量产生显著的影响。

Jun, 2024

扩散模型与指导梯度实现可控音乐制作

我们展示了如何从扩散模型中进行条件生成，以解决音乐制作中的各种现实任务，包括音乐音频的延续、修复和再生，不同音乐轨道之间的平滑过渡以及将样式特征传递给现有音频片段。

Nov, 2023

JEN-1: 文本引导的全局音乐生成与全方位扩散模型

JEN-1 是一个通用高保真度的文本到音乐生成模型，通过整合自回归和非自回归训练技术，并且通过上下文学习实现文本引导的音乐生成、音乐修复和延续等多种生成任务，相对于先前的方法，在文本与音乐对齐、音乐质量和计算效率方面展现出优越的性能。

Aug, 2023

原始音乐生成的渐进蒸馏扩散

应用一种新的深度学习方法来生成原始音频文件，并使用 1D U-Net 的渐进蒸馏扩散模型实现无条件音乐生成，并比较不同扩散参数的价值和实现。

Jul, 2023

Diff-A-Riff: 音乐伴奏共创技术基于潜在扩散模型

介绍了基于深度生成模型的音乐生成方法 Diff-A-Riff，可通过音频参考、文本提示或两者控制，生成适应任何音乐背景的高质量器乐伴奏，并在 48kHz 伪立体声音频的基础上显著减少推断时间和内存使用。

Jun, 2024

DiffVoice: 基于潜在扩散的文本到语音

本文提出 DiffVoice，一种基于潜在扩散的文本转语音模型。在 LJSpeech 和 LibriTTS 数据集上的主观评价表明，我们的方法在自然度方面优于当前公开可用的最佳系统，并且通过采用最近的生成逆问题解决算法，DiffVoice 在基于文本的语音编辑和零样本适应方面实现了最先进的性能。

Apr, 2023