文本条件下音乐扩散模型的广义多源推理

Mar, 2024

文本条件下音乐扩散模型的广义多源推理

Generalized Multi-Source Inference for Text Conditioned Music Diffusion Models

Emilian Postolache, Giorgio Mariani, Luca Cosmo, Emmanouil Benetos, Emanuele Rodolà

TL;DR该论文将多源扩散模型推广到任意时域扩散模型，基于文本嵌入来训练这些模型，实现了有机的音乐生成和声音分离，且在松散数据设置下展示出竞争力的生成和分离结果。

Abstract

multi-source diffusion models (MSDM) allow for compositional musical generation tasks: generating a set of coherent sources, creating accompaniments, and performing source separation. Despite their versatility, t

multi-source diffusion models compositional musical generation source separation text embeddings arbitrary time-domain diffusion models

发现论文，激发创造

Moûsai: 长上下文潜在扩散的文本生成音乐

本研究探索了扩散模型在生成音乐方面的潜力，提出了一种级联的潜在扩散方法来根据文本描述生成高质量的立体声音乐，同时开源相关代码和音频样本以促进领域内未来研究。

Jan, 2023

可微分参数源模型的无监督音乐源分离

本文提出了一种无监督的基于模型的深度学习方法，用于音频源分离，该方法通过参数化源过滤器模型对每个源进行建模，并使用神经网络以基本频率估计源模型的参数来重构观察到的混合音频信号，实验证明该方法具有较高的数据效率和好的分离效果。

Jan, 2022

跨模态音乐和图像生成的离散对比扩散

通过提高输入与输出的互信息，利用条件离散对比扩散 (CDCD) 损失和两种对比扩散机制，将对比学习和传统变分目标相结合，我们成功地提高了多模式条件综合生成模型的输入输出对应性并取得了良好的结果。

Jun, 2022

多源领域自适应遇上数据集蒸馏通过数据集字典学习

该论文探讨了机器学习中两个问题的交集：多源领域适应 (MSDA) 和数据集精炼 (DD)。通过采用之前 MSDA 领域的作品以及 DD 方法的分布匹配，在四个基准测试中进行了深入的实验，表明即使每类仅有 1 个样本，也能够获得最先进的适应性能。

Sep, 2023

扩散模型与指导梯度实现可控音乐制作

我们展示了如何从扩散模型中进行条件生成，以解决音乐制作中的各种现实任务，包括音乐音频的延续、修复和再生，不同音乐轨道之间的平滑过渡以及将样式特征传递给现有音频片段。

Nov, 2023

MusicLDM: 使用节奏同步混合策略增强文本生成音乐中的新颖性

通过构建一种文本到音乐模型，并利用分布式扩散模型和音频广义线性模型来进行训练以生成新音乐，解决了音乐生成过程中的数据不足、版权和抄袭等问题。同时通过节拍跟踪和两种不同的数据增强策略，即拍子同步音频混合和拍子同步潜在混合，实现对训练数据的重组，从而生成多样化且保持风格一致的音乐。最终，通过基于对比语音 - 音频预训练模型的评估指标，进一步证明了所提出的音乐生成模型和拍子同步混合策略能够提高生成音乐的质量、创新性和与输入文本的对应关系。

Aug, 2023

音乐源分离的类条件嵌入

该论文介绍一种使用深度聚类和深度吸引子网络的方法，将音乐混合中的所有乐器的时频图嵌入到一个共同的嵌入空间中，并使用混合高斯模型生成参数，从而实现对音乐源的分离，同时嵌入空间具有易于解释性。

Nov, 2018

利用 MMDenseNet 改进实时音乐伴奏分离

本文通过改进轻量级模型 MMDenstNet，探讨了多个方向的改进方法，包括复杂的理想比率掩蔽、自注意力、带合并和分割的方法以及特征回溯，旨在在实时应用中在分离质量和延迟之间取得平衡。实验结果表明，我们的改进在保持可接受的分离质量的同时实现了低实时因子和最佳延迟。

Jun, 2024

MusicMagus：零射手风琴文本音乐编辑通过扩散模型

通过操纵潜空间并添加额外限制，本研究介绍了一种新颖方法来编辑文本生成的音乐，实现修改特定属性（如体裁、情绪和乐器），同时保持其他方面的不变。实验结果表明，在风格和音色转移评估中，与零样本和某些监督基线相比，我们的方法表现出卓越的性能。此外，我们展示了本方法在真实音乐编辑场景中的实际适用性。

Feb, 2024

基于扩散模型的认知启发跨模态数据生成

探索一种基于扩散模型的跨模态生成方法，通过多模态扩散模型的训练和采样方案使用逐通道图像条件学习跨模态相关性，实现数据生成和多种模态的条件生成。

May, 2023