从离散的标记到高保真音频的多频带扩散

Aug, 2023

从离散的标记到高保真音频的多频带扩散

From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion

Robin San Roman, Yossi Adi, Antoine Deleforge, Romain Serizel, Gabriel Synnaeve...

TL;DR利用高保真多带扩散模型，基于低比特率离散表示生成任何类型的音频，其感知质量比最先进的生成技术更好。

Abstract

deep generative models can generate high-fidelity audio conditioned on various types of representations (e.g., mel-spectrograms, Mel-frequency Cepstral Coefficients (MFCC)). Recently, such models have been used t

deep generative models audio synthesis diffusion models high-fidelity audio low-bitrate discrete representations

发现论文，激发创造

ArchiSound: 漫射生成音频

该论文研究了扩散模型在音频生成方面的应用，提出了多种模型来满足音频生成的多方面需求，并通过简化工具库加速实时推理。

Jan, 2023

扩散模型与指导梯度实现可控音乐制作

我们展示了如何从扩散模型中进行条件生成，以解决音乐制作中的各种现实任务，包括音乐音频的延续、修复和再生，不同音乐轨道之间的平滑过渡以及将样式特征传递给现有音频片段。

Nov, 2023

DiffWave：一种用于音频合成的通用扩散模型

本文介绍了 DiffWave，这是一种用于条件和非条件波形生成的多功能扩散概率模型。该模型高效地通过 Markov 链将白噪声信号转化为结构化波形，并通过特定的数据似然变分界限进行优化训练。DiffWave 在各种波形生成任务中均能生成高保真度音频，并在音频质量方面显著优于其他自回归和 GAN-based 波形模型。

Sep, 2020

基于频谱扩散的多乐器音乐合成

本文介绍了利用神经合成器实时生成任意乐器和音符组合的音频，其具有互动性和表现力，使用 MIDI 序列进行训练，采用两阶段过程转换为声谱图，然后通过生成对抗网络（GAN）声谱图反演器将其转化为音频，发现 DDPM 方法在质量和重建等方面具有显著的优势。

Jun, 2022

原始音乐生成的渐进蒸馏扩散

应用一种新的深度学习方法来生成原始音频文件，并使用 1D U-Net 的渐进蒸馏扩散模型实现无条件音乐生成，并比较不同扩散参数的价值和实现。

Jul, 2023

音频修复的扩散模型

基于扩散模型的音频修复算法在语音增强和音乐修复任务中表现出色，既具有可解释性又具有出色的音质性能。

Feb, 2024

使用双判别器对去噪扩散模型进行对抗训练的高保真多说话人 TTS

通过在扩散模型中引入两个辨别器（扩散辨别器和频谱图辨别器），我们提出了一种音频合成模型，其在各项评估指标中均优于 FastSpeech2 和 DiffGAN-TTS，并通过结构相似性指数、梅尔倒谱失真、F0 均方根误差、短时客观可懂性、语音质量感知评估和主观平均意见得分等客观和主观度量对该模型进行了评估。

Aug, 2023

使用扩散模型生成符号音乐

本文提出了一种基于预训练变分自编码器的离散领域参数化的扩散模型训练技术，用于离散和连续领域的生成导致更优结果，并在应用于符号音乐领域时表现出很强的无条件生成和条件填充结果，相比基于自回归语言模型的连续嵌入操作更具可行性。

Mar, 2021

高保真度语音合成的最小监督方法：全部使用扩散模型

我们提出了一种基于扩散模型的最小监督高保真语音合成方法，其中所有模块均基于扩散模型构建，非自回归框架增强了可控性，持续时间扩散模型实现了多样化的韵律表达。

Sep, 2023

Diffsound: 文本生成音效的离散扩散模型

本研究提出了一种基于非自回归解码器、矢量量化变分自编码器、谱图及声码器的文本到声音生成框架，在声音生成效果和速度方面较传统的自回归解码器都有较大的提升。

Jul, 2022