DITTO: 音乐生成的扩散以及推理时间下的T优化

Jan, 2024

DITTO: 音乐生成的扩散以及推理时间下的T优化

DITTO: Diffusion Inference-Time T-Optimization for Music Generation

Zachary Novack, Julian McAuley, Taylor Berg-Kirkpatrick, Nicholas J. Bryan

TL;DR我们提出了逆向传播推理时间T优化（DITTO）的框架，用于通过优化初始噪声潜变量来控制预训练的文本到音乐传播模型，实现目标（风格化）输出。我们的方法可以通过优化任何可微分的特征匹配损失来实现音乐生成的广泛应用，包括填充、扩展、循环以及强度、旋律和音乐结构的控制 - 且无需微调基础模型。与相关的训练、引导和基于优化的方法相比，我们的方法在几乎所有任务上均取得了最先进的性能，包括在可控性、音频质量和计算效率方面优于相似方法，从而为高质量、灵活、无需训练的传播模型控制打开了大门。具体的声音示例可以在此链接中找到

Abstract

We propose diffusion inference-time t-optimization (DITTO), a general-purpose frame-work for controlling pre-trained text-to-music diffusion models at inference-time via →

发现论文，激发创造

DiffWave：一种用于音频合成的通用扩散模型

本文介绍了DiffWave，这是一种用于条件和非条件波形生成的多功能扩散概率模型。该模型高效地通过Markov链将白噪声信号转化为结构化波形，并通过特定的数据似然变分界限进行优化训练。DiffWave在各种波形生成任务中均能生成高保真度音频，并在音频质量方面显著优于其他自回归和GAN-based波形模型。

Sep, 2020

Moûsai: 长上下文潜在扩散的文本生成音乐

本研究探索了扩散模型在生成音乐方面的潜力，提出了一种级联的潜在扩散方法来根据文本描述生成高质量的立体声音乐，同时开源相关代码和音频样本以促进领域内未来研究。

Jan, 2023

基于扩散的多乐器音乐合成的性能调整

在音乐信息检索（MIR）中，从符号音乐表示生成多仪器音乐是一项重要任务。本研究的主要贡献是提出通过将生成模型的条件设置为特定表演和录音环境，从而增强多仪器合成的控制能力，从而更好地引导音色和风格。通过基于最先进的扩散音乐生成模型，我们引入了性能条件化，这是一种简单的工具，表明生成模型可以合成具有特定表演所使用的特定乐器的音乐的风格和音色。我们的原型采用各种仪器的非编目表演进行评估，实现了最先进的FAD真实性评分，并允许新的音色和风格控制。我们的项目页面，包括样本和演示，可在benadar293.github.io/midipm上找到。

Sep, 2023

扩散模型与指导梯度实现可控音乐制作

我们展示了如何从扩散模型中进行条件生成，以解决音乐制作中的各种现实任务，包括音乐音频的延续、修复和再生，不同音乐轨道之间的平滑过渡以及将样式特征传递给现有音频片段。

Nov, 2023

通过潜在扩散实现低音伴奏生成

我们提出了一种新颖的可控制系统，用于生成与任意输入音轨相匹配的单音轨，核心是音频自编码器有效地压缩音频波形样本成可逆的潜在表示，并且条件化的潜在扩散模型以输入音轨的潜在编码生成对应音轨的潜在编码，为了提供对生成样本音色的控制，我们引入了一种在扩散采样期间将潜在空间与用户提供的参考样式进行关联的技术，为了进一步提高音频质量，我们使用无分类器引导的方法避免在生成无界潜在空间时出现失真，我们使用配对的音轨混合组成的数据集对模型进行训练，定量实验证明，给定输入音轨，所提出的系统能够生成用户指定音色的低音线，我们的可控条件音频生成框架在帮助音乐制作方面迈出了重要的一步。

Feb, 2024

快速时序条件下的音频扩散

利用文本提示生成长篇44.1kHz立体声音频的计算效率较高，利用条件生成模型、稳定音频技术和潜在变化等方法，可以以较快速度生成出拥有结构和立体声音效的音乐。

Feb, 2024

文本条件下音乐扩散模型的广义多源推理

该论文将多源扩散模型推广到任意时域扩散模型，基于文本嵌入来训练这些模型，实现了有机的音乐生成和声音分离，且在松散数据设置下展示出竞争力的生成和分离结果。

Mar, 2024

Tango 2：通过直接偏好优化对齐基于扩散的文本到音频生成

研究使用diffusion-DPO（直接偏好优化）损失在偏好数据集上对Tango文本到音频模型进行微调，以改进音频生成性能，并且在自动和手动评估指标上显示出优于Tango和AudioLDM2的效果。

Apr, 2024

DITTO-2: 音乐生成的蒸馏漫扩推理时间优化

提出了Distilled Diffusion Inference-Time T-Optimization（DITTO-2）方法，以实现快于实时的可控音乐生成，包括音乐修补、扩展、强度、旋律和音乐结构控制，并将该方法应用于最大化文本一致性的新应用。

May, 2024

Diff-A-Riff: 音乐伴奏共创技术基于潜在扩散模型

介绍了基于深度生成模型的音乐生成方法Diff-A-Riff，可通过音频参考、文本提示或两者控制，生成适应任何音乐背景的高质量器乐伴奏，并在48kHz伪立体声音频的基础上显著减少推断时间和内存使用。

Jun, 2024