DITTO-2: 音乐生成的蒸馏漫扩推理时间优化

May, 2024

DITTO-2: 音乐生成的蒸馏漫扩推理时间优化

DITTO-2: Distilled Diffusion Inference-Time T-Optimization for Music Generation

Zachary Novack, Julian McAuley, Taylor Berg-Kirkpatrick, Nicholas Bryan

TL;DR提出了Distilled Diffusion Inference-Time T-Optimization（DITTO-2）方法，以实现快于实时的可控音乐生成，包括音乐修补、扩展、强度、旋律和音乐结构控制，并将该方法应用于最大化文本一致性的新应用。

Abstract

controllable music generation methods are critical for human-centered AI-based music creation, but are currently limited by speed, quality, and control design trade-offs. diffusion inference-time t-optimization (

发现论文，激发创造

Moûsai: 长上下文潜在扩散的文本生成音乐

本研究探索了扩散模型在生成音乐方面的潜力，提出了一种级联的潜在扩散方法来根据文本描述生成高质量的立体声音乐，同时开源相关代码和音频样本以促进领域内未来研究。

Jan, 2023

高效神经音乐生成

介绍了 MeLoDy，一种基于 LM 引导扩散模型，可以高效地生成音乐音频，并同时减少音乐 LM 中 95.7% 或 99.6% 的前向处理，实现了可持续且具有良好音质和文本相关性的音乐生成。

May, 2023

Polyffusion：一种带有内部和外部控制的多音谱生成扩散模型

我们提出了Polyffusion，它是一种扩散模型，通过将音乐视为图像样的钢琴卷轴表示生成重音乐谱。该模型可以通过内部控制和外部控制两种范式对音乐进行可控制生成。实验结果表明，我们的模型明显优于现有的Transformer和基于采样的基线，并使用预训练的解耦表示作为外部条件可以产生更有效的控制。

Jul, 2023

基于扩散的多乐器音乐合成的性能调整

在音乐信息检索（MIR）中，从符号音乐表示生成多仪器音乐是一项重要任务。本研究的主要贡献是提出通过将生成模型的条件设置为特定表演和录音环境，从而增强多仪器合成的控制能力，从而更好地引导音色和风格。通过基于最先进的扩散音乐生成模型，我们引入了性能条件化，这是一种简单的工具，表明生成模型可以合成具有特定表演所使用的特定乐器的音乐的风格和音色。我们的原型采用各种仪器的非编目表演进行评估，实现了最先进的FAD真实性评分，并允许新的音色和风格控制。我们的项目页面，包括样本和演示，可在benadar293.github.io/midipm上找到。

Sep, 2023

JEN-1 Composer: 一套高保真多轨音乐生成的统一框架

通过JEN-1 Composer框架，我们提出了一种统一的方法，通过一个模型来有效地建模多轨音乐的边际、条件和联合分布，从而实现了灵活生成多轨音乐。我们引入了一种课程培训策略，让模型逐步掌握从单轨生成到灵活生成多轨组合的过渡。量化和定性评估表明，JEN-1 Composer在可控性和高保真多轨音乐合成方面具有最先进的性能，为交互式AI辅助音乐创作和作曲提供了重要进展。

Oct, 2023

DITTO: 音乐生成的扩散以及推理时间下的T优化

我们提出了逆向传播推理时间T优化（DITTO）的框架，用于通过优化初始噪声潜变量来控制预训练的文本到音乐传播模型，实现目标（风格化）输出。我们的方法可以通过优化任何可微分的特征匹配损失来实现音乐生成的广泛应用，包括填充、扩展、循环以及强度、旋律和音乐结构的控制 - 且无需微调基础模型。与相关的训练、引导和基于优化的方法相比，我们的方法在几乎所有任务上均取得了最先进的性能，包括在可控性、音频质量和计算效率方面优于相似方法，从而为高质量、灵活、无需训练的传播模型控制打开了大门。具体的声音示例可以在此链接中找到

Jan, 2024

通过潜在扩散实现低音伴奏生成

我们提出了一种新颖的可控制系统，用于生成与任意输入音轨相匹配的单音轨，核心是音频自编码器有效地压缩音频波形样本成可逆的潜在表示，并且条件化的潜在扩散模型以输入音轨的潜在编码生成对应音轨的潜在编码，为了提供对生成样本音色的控制，我们引入了一种在扩散采样期间将潜在空间与用户提供的参考样式进行关联的技术，为了进一步提高音频质量，我们使用无分类器引导的方法避免在生成无界潜在空间时出现失真，我们使用配对的音轨混合组成的数据集对模型进行训练，定量实验证明，给定输入音轨，所提出的系统能够生成用户指定音色的低音线，我们的可控条件音频生成框架在帮助音乐制作方面迈出了重要的一步。

Feb, 2024

通过基于内容的控制，进行可定向的长期音乐音频生成和编辑

可控音乐生成对于人工智能与人类共创音乐至关重要。大型语言模型在生成高质量音乐方面表现出了潜力，但其自回归生成的特性限制了其在音乐编辑任务中的实用性。为了弥合这一差距，我们引入了一种新颖的参数高效微调（PEFT）方法，通过此方法，自回归语言模型可以无缝地解决音乐修复任务。此外，我们的PEFT方法结合了基于帧级内容的控制，便于音轨调节的音乐细化和谱面调节的音乐编排。我们将此方法应用于优化MusicGen，一种领先的自回归音乐生成模型。我们的实验在多个音乐编辑任务中显示了有希望的结果，为未来的AI驱动音乐编辑工具提供了更灵活的控制。我们的工作演示页面和源代码可以在线上获取。

Feb, 2024

文本条件下音乐扩散模型的广义多源推理

该论文将多源扩散模型推广到任意时域扩散模型，基于文本嵌入来训练这些模型，实现了有机的音乐生成和声音分离，且在松散数据设置下展示出竞争力的生成和分离结果。

Mar, 2024

Diff-A-Riff: 音乐伴奏共创技术基于潜在扩散模型

介绍了基于深度生成模型的音乐生成方法Diff-A-Riff，可通过音频参考、文本提示或两者控制，生成适应任何音乐背景的高质量器乐伴奏，并在48kHz伪立体声音频的基础上显著减少推断时间和内存使用。

Jun, 2024