原始音乐生成的渐进蒸馏扩散

Jul, 2023

Progressive distillation diffusion for raw music generation

Svetlana Pavlova

TL;DR应用一种新的深度学习方法来生成原始音频文件，并使用 1D U-Net 的渐进蒸馏扩散模型实现无条件音乐生成，并比较不同扩散参数的价值和实现。

Abstract

This paper aims to apply a new deep learning approach to the task of generating raw audio files. It is based on diffusion models, a recent type of deep generative model. This new type of method has recently shown

deep learning diffusion models audio generation music generation empirical comparisons

发现论文，激发创造

ArchiSound: 漫射生成音频

该论文研究了扩散模型在音频生成方面的应用，提出了多种模型来满足音频生成的多方面需求，并通过简化工具库加速实时推理。

Jan, 2023

音频修复的扩散模型

基于扩散模型的音频修复算法在语音增强和音乐修复任务中表现出色，既具有可解释性又具有出色的音质性能。

Feb, 2024

扩散模型与指导梯度实现可控音乐制作

我们展示了如何从扩散模型中进行条件生成，以解决音乐制作中的各种现实任务，包括音乐音频的延续、修复和再生，不同音乐轨道之间的平滑过渡以及将样式特征传递给现有音频片段。

Nov, 2023

网络弯曲的扩散模型用于音视频生成

使用预训练的生成式机器学习模型，本文介绍了第一步，即创造一个工具，使艺术家能够创建音乐可视化。通过利用各种点、张量和形态学操作来进行网络弯曲，我们发现这个过程能够产生多种视觉效果，包括一些难以使用标准图像编辑工具重新创建的效果。最后，我们运用稳定扩散和网络弯曲操作，生成具有音乐响应的视频，并对某些变换对图像和基于这些变换学习稳定扩散的潜在空间的可能性进行了讨论。

Jun, 2024

渐进式蒸馏：用于快速采样扩散模型

通过新的参数化方法和扩散模型的渐进提炼过程，从而在不降低感知质量的前提下将采样步骤尽量减少到四步，从而提高了采样效率，并为生成建模提供了高效的解决方案。

Feb, 2022

Moûsai: 长上下文潜在扩散的文本生成音乐

本研究探索了扩散模型在生成音乐方面的潜力，提出了一种级联的潜在扩散方法来根据文本描述生成高质量的立体声音乐，同时开源相关代码和音频样本以促进领域内未来研究。

Jan, 2023

从离散的标记到高保真音频的多频带扩散

利用高保真多带扩散模型，基于低比特率离散表示生成任何类型的音频，其感知质量比最先进的生成技术更好。

Aug, 2023

生成蒸馏下的扩散模型的持续学习

借助生成性重放的扩散模型的生成蒸馏方法，可以显着提升持续学习性能，只需适度增加计算成本。

Nov, 2023

音频驱动的预训练扩散模型生成与编辑

我们提出了一种能够在大规模图像扩散模型中实现音频条件的方法，通过将从音频剪辑中获取的特征映射到可以注入扩散模型的令牌中，引入了额外的音频 - 图像交叉注意力层，可以与扩散编辑方法相结合进行音频条件的图像编辑。

May, 2024

用于生成性语音增强的单步和少步扩散

通过两阶段训练方法，我们解决了扩散模型在语音增强中的潜在问题，实现了与基准模型相当的性能，缩短了推理过程时间，并显著优于扩散基线模型。

Sep, 2023