AUDIT: 采用潜在扩散模型按照说明进行音频编辑

Apr, 2023

AUDIT: 采用潜在扩散模型按照说明进行音频编辑

AUDIT: Audio Editing by Following Instructions with Latent Diffusion Models

Yuancheng Wang, Zeqian Ju, Xu Tan, Lei He, Zhizheng Wu...

TL;DR本研究提出 AUDIT，一种基于潜在扩散模型的指导音频编辑模型，通过三元训练数据（指令、输入音频、输出音频）训练扩散模型，同时利用输入和指令生成输出音频，实现只修改需要编辑的音频，且只需要编辑指令而非完整的目标音频描述，取得了多项音频编辑任务上的最优结果。

Abstract

audio editing is applicable for various purposes, such as adding background sound effects, replacing a musical instrument, and repairing damaged audio. Recently, some diffusion-based methods achieved zero-shot

audio editing diffusion-based methods latent diffusion models editing tasks instruction-guided

发现论文，激发创造

音频驱动的预训练扩散模型生成与编辑

我们提出了一种能够在大规模图像扩散模型中实现音频条件的方法，通过将从音频剪辑中获取的特征映射到可以注入扩散模型的令牌中，引入了额外的音频 - 图像交叉注意力层，可以与扩散编辑方法相结合进行音频条件的图像编辑。

May, 2024

InstructME: 指令引导的音乐编辑和混音框架，其中包括潜在扩散模型

我们开发了 InstructME，这是一个基于潜在扩散模型的指导式音乐编辑和混音框架，通过多尺度聚合巩固了 U-Net，并引入和语义空间的和弦进行矩阵作为条件信息以提高旋律和谐。我们的方法在音乐质量、文本相关性和和谐度方面明显优于现有系统。

Aug, 2023

基于提示的扩散模型精确音频编辑

通过输入的文本提示，我们提出了一种名为 PPAE 的新颖方法，它作为扩散模型的通用模块，实现了精确的音频编辑，通过扩散模型的交叉注意力图来促进准确的局部编辑，并采用分层的局部 - 全局流程确保更流畅的编辑过程，实验证明了我们方法在各种编辑任务中的有效性。

May, 2024

ArchiSound: 漫射生成音频

该论文研究了扩散模型在音频生成方面的应用，提出了多种模型来满足音频生成的多方面需求，并通过简化工具库加速实时推理。

Jan, 2023

通过潜在扩散实现低音伴奏生成

我们提出了一种新颖的可控制系统，用于生成与任意输入音轨相匹配的单音轨，核心是音频自编码器有效地压缩音频波形样本成可逆的潜在表示，并且条件化的潜在扩散模型以输入音轨的潜在编码生成对应音轨的潜在编码，为了提供对生成样本音色的控制，我们引入了一种在扩散采样期间将潜在空间与用户提供的参考样式进行关联的技术，为了进一步提高音频质量，我们使用无分类器引导的方法避免在生成无界潜在空间时出现失真，我们使用配对的音轨混合组成的数据集对模型进行训练，定量实验证明，给定输入音轨，所提出的系统能够生成用户指定音色的低音线，我们的可控条件音频生成框架在帮助音乐制作方面迈出了重要的一步。

Feb, 2024

AudioToken：基于文本条件扩散模型的音频到图像生成适应性

本论文提出了一种新方法，利用文本 - 图像生成中训练的潜在扩散模型，生成基于音频记录的图像。该方法使用预训练的音频编码模型将音频编码成新令牌，这可以被视为音频和文本表示之间的自适应层。结果表明，相较于基准方法，该方法在客观和主观度量方面表现优异。

May, 2023

对比条件潜扩散在视听分割中的应用

通过潜在扩散模型和对比学习，我们提出了一种用于音频 - 视觉分割的模型，以深入探究音频的贡献。我们将音频视为有条件生成任务，其中音频被定义为声音生成器分割的条件变量。我们的潜在扩散模型通过对地面真实分割地图的条件生成过程进行学习，确保了音频与最终分割地图的相关性。对比学习使我们的模型学习音频 - 视觉对应关系，并最大化模型预测和音频数据之间的互信息，从而明确地增加音频对音频 - 视觉分割的贡献。实验结果验证了我们解决方案的有效性。

Jul, 2023

使用指令调整的 LLM 和潜在扩散模型生成文本到语音

本研究采用基于指令调整的大型语言模型 Flan-T5 作为文本编码器，通过使用基于声音压力级的声音混合来进行训练集增强，从而取得了比 AudioLDM 更好的结果，成为了生成文字描述音频的任务中的最佳选择。

Apr, 2023

Diff-A-Riff: 音乐伴奏共创技术基于潜在扩散模型

介绍了基于深度生成模型的音乐生成方法 Diff-A-Riff，可通过音频参考、文本提示或两者控制，生成适应任何音乐背景的高质量器乐伴奏，并在 48kHz 伪立体声音频的基础上显著减少推断时间和内存使用。

Jun, 2024

基于潜在扩散模型的文本驱动 Foley 声音生成

本研究提出了一种基于扩散模型的 Foley 声音生成系统，该系统使用文本条件进行预测。通过使用 CLAP 技术的迁移学习，将该模型初始化地进行了预训练，以缓解数据不足问题。实验结果表明，该方法显着提高了声音生成性能，使得该系统在 DCASE Challenge 2023 任务 7 中排名第一。

Jun, 2023