MusicLDM: 使用节奏同步混合策略增强文本生成音乐中的新颖性

Aug, 2023

MusicLDM: 使用节奏同步混合策略增强文本生成音乐中的新颖性

MusicLDM: Enhancing Novelty in Text-to-Music Generation Using Beat-Synchronous Mixup Strategies

Ke Chen, Yusong Wu, Haohe Liu, Marianna Nezhurina, Taylor Berg-Kirkpatrick...

TL;DR通过构建一种文本到音乐模型，并利用分布式扩散模型和音频广义线性模型来进行训练以生成新音乐，解决了音乐生成过程中的数据不足、版权和抄袭等问题。同时通过节拍跟踪和两种不同的数据增强策略，即拍子同步音频混合和拍子同步潜在混合，实现对训练数据的重组，从而生成多样化且保持风格一致的音乐。最终，通过基于对比语音 - 音频预训练模型的评估指标，进一步证明了所提出的音乐生成模型和拍子同步混合策略能够提高生成音乐的质量、创新性和与输入文本的对应关系。

Abstract

diffusion models have shown promising results in cross-modal generation tasks, including text-to-image and text-to-audio generation. However, generating music, as a special type of audio, presents unique challenges due to limited availability of →

diffusion models text-to-music model music data copyright data augmentation

发现论文，激发创造

AudioLDM：使用潜在扩散模型进行文本到音频生成

本文介绍了一种基于潜在空间的 Text-to-audio（TTA）系统 AudioLDM，它使用对比语音 - 语言预训练（CLAP）潜在信息学习连续音频表示，并以文本嵌入作为采样条件，从而在生成质量和计算效率方面具有优势，实测效果接近官方记录，并可以进行零 - shot 文本引导音频操作，如风格转移。

Jan, 2023

探索文本生成音乐中的个性化方法

调查了在 few-shot 设置中对文本到音乐扩散模型进行个性化的工作。首次探索了将预训练的文本到音频扩散器与两种常用的个性化方法结合的组合。实验了音频特定数据增强对系统整体性能的影响，并评估了不同的训练策略。构建了一个包含提示和音乐片段的新数据集进行评估，使用基于嵌入和基于音乐的量化评估指标，以及用户研究进行定性评估。分析表明相似度度量与用户偏好一致，并且当前的个性化方法更容易学习到节奏音乐结构而非旋律。该研究的代码、数据集和示例资料对研究社区开放。

Sep, 2023

使用指令调整的 LLM 和潜在扩散模型生成文本到语音

本研究采用基于指令调整的大型语言模型 Flan-T5 作为文本编码器，通过使用基于声音压力级的声音混合来进行训练集增强，从而取得了比 AudioLDM 更好的结果，成为了生成文字描述音频的任务中的最佳选择。

Apr, 2023

MusicMagus：零射手风琴文本音乐编辑通过扩散模型

通过操纵潜空间并添加额外限制，本研究介绍了一种新颖方法来编辑文本生成的音乐，实现修改特定属性（如体裁、情绪和乐器），同时保持其他方面的不变。实验结果表明，在风格和音色转移评估中，与零样本和某些监督基线相比，我们的方法表现出卓越的性能。此外，我们展示了本方法在真实音乐编辑场景中的实际适用性。

Feb, 2024

MeLFusion: 使用扩散模型合成基于图像和语言线索的音乐

音乐综合，机器学习模型，MeLFusion，视觉信息，和 IMSM 对生成的音乐质量产生显著的影响。

Jun, 2024

舞蹈视频生成中的节拍与视觉融合

通过音乐作为条件输入，直接从静态图像中生成舞蹈视频的 Dance Any Beat Diffusion 模型引入了图像到视频生成原则，采用了音乐作为图像到视频生成的条件因素。

May, 2024

高效神经音乐生成

介绍了 MeLoDy，一种基于 LM 引导扩散模型，可以高效地生成音乐音频，并同时减少音乐 LM 中 95.7% 或 99.6% 的前向处理，实现了可持续且具有良好音质和文本相关性的音乐生成。

May, 2023

Moûsai: 长上下文潜在扩散的文本生成音乐

本研究探索了扩散模型在生成音乐方面的潜力，提出了一种级联的潜在扩散方法来根据文本描述生成高质量的立体声音乐，同时开源相关代码和音频样本以促进领域内未来研究。

Jan, 2023

使用序列模型进行音乐舞蹈语言翻译

用 MDLT 框架，将音乐中的舞蹈姿势转化为相应的舞蹈编排，进行舞蹈生成的翻译任务。

Mar, 2024

利用预训练的 AudioLDM 实现文本到语音生成：基准研究

本文探讨了使用预先训练的 AudioLDM 模型作为声音生成的 “骨架” 在小数据量场景下实现优异表现的优势，并且比较了不同训练策略对模型性能的影响。同时，为了促进未来的研究，我们还在几个常用数据集上评估了各种文本生成语音系统，以允许公平比较和基准测试这些方法。

Mar, 2023