DiffGAN-TTS: 用去噪扩散 GAN 实现高保真和高效的文本转语音

Jan, 2022

DiffGAN-TTS: 用去噪扩散 GAN 实现高保真和高效的文本转语音

DiffGAN-TTS: High-Fidelity and Efficient Text-to-Speech with Denoising Diffusion GANs

Songxiang Liu, Dan Su, Dong Yu

TL;DR本文介绍了一种新的基于 Denoising Diffusion Generative Adversarial Networks 的文本到语音模型 (DiffGAN-TTS)，该模型通过多说话人 TTS 实验表明，仅需 4 个去噪步骤即可生成高保真度语音样本，并提出了一个两阶段训练方案，可在仅 1 个去噪步骤下实现高质量的语音合成性能。

Abstract

denoising diffusion probabilistic models (DDPMs) are expressive generative models that have been used to solve a variety of speech synthesis problems. However, because of their high sampling costs, DDPMs are diff

denoising diffusion probabilistic models diffgan-tts speech synthesis multi-speaker tts experiments two-stage training scheme

发现论文，激发创造

使用双判别器对去噪扩散模型进行对抗训练的高保真多说话人 TTS

通过在扩散模型中引入两个辨别器（扩散辨别器和频谱图辨别器），我们提出了一种音频合成模型，其在各项评估指标中均优于 FastSpeech2 和 DiffGAN-TTS，并通过结构相似性指数、梅尔倒谱失真、F0 均方根误差、短时客观可懂性、语音质量感知评估和主观平均意见得分等客观和主观度量对该模型进行了评估。

Aug, 2023

Diff-TTS: 一种文本到语音去噪扩散模型

本文介绍了一种新型非自回归 TTS 模型 Diff-TTS，以噪声信号与扩散时间步长探索去噪扩散框架，同时引入基于可能性的 TTS 优化方法，利用加速采样方法提高波形合成速度，实验证明 Diff-TTS 单独搭载一枚 NVIDIA 2080Ti 显卡比实时生成快 28 倍，并且质量良好。

Apr, 2021

ProDiff：高质量语音合成的渐进式快速扩散模型

本文提出了一种名为 ProDiff 的文本到语音模型，它利用渐进式快速扩散模型直接预测干净数据来减少扰动模型迭代次数，从而提高高质量的音频语音合成速度。使用基于 GPU 硬件的 ProDiff 模型可以实现 24 倍于实时速度的语音合成，相对于其他使用数百步骤的模型，它只需要进行 2 次模型迭代就能合成高保真和多样化的语音合成样本.

Jul, 2022

改进降噪扩散概率模型

通过对 DDPM 模型进行简单修改，可以在保持高质量样本的同时达到具有竞争力的对数似然值，并学习反向扩散过程的方差，从而使用数量级更少的正向传递采样。使用精度和召回率比较 DDPM 和 GAN 模型的性能，并证明这些模型的样本质量和似然值可以与模型容量和训练计算平稳地提高。

Feb, 2021

Grad-TTS: 一种文本转语音的扩散概率模型

Grad-TTS 是一款使用基于得分的解码器的文本转语音模型，使用随机微积分的方法将通过噪声预测的语音信号和文本输入进行逐步变换，从而实现噪声到语音的重建，并能够在保持音质、推理速度之间进行灵活平衡。主观人评表明 Grad-TTS 在 Mean Opinion Score 方面具有与最先进的文本转语音方法相竞争的能力。

May, 2021

FastDiff：一种快速的有条件扩散模型，用于高质量语音合成

FastDiff 是一种快速条件扩散模型，通过应用时间感知的位置可变卷积和噪声预测器，实现了高质量语音合成，并在端到端文本到语音合成中实现了高保真度的语音波形生成，速度快达 58 倍。

Apr, 2022

硬件受损通信系统的去噪扩散概率模型：朝着无线生成 AI

本文提出了基于去噪扩散概率模型的无线通信方案，旨在解决实际应用中的硬件损伤、信道失真和量化误差等非理想因素，提供低信噪比下的网络韧性、对不同硬件损伤水平和量化误差的近不变重建性能，以及抵抗非高斯噪声的强大分布外表现，并通过余弦相似度和均方误差（MSE）评估与传统深度神经网络（DNN）接收机相比的超过 25 dB 改进的重建性能。

Oct, 2023

Diffusion-TS: 通用时间序列生成的可解释扩散

Denoising diffusion probabilistic models (DDPMs) are becoming the leading paradigm for generative models. In this paper, we propose Diffusion-TS, a novel diffusion-based framework that generates high-quality multivariate time series samples using an encoder-decoder transformer with disentangled temporal representations, aiming to satisfy both interpretability and realness.

Mar, 2024

BDDM: 双边降噪扩散模型用于高质量和快速语音合成

提出了一种新的双边去噪扩散模型，使用日程网络和分数网络参数化正向和反向过程，实现有效的采样和噪声调度优化，可产生高保真音频样本。

Mar, 2022

医学图像生成的快速去噪扩散概率模型

Fast-DDPM 是一种简单而有效的方法，可同时提高训练速度、采样速度和生成质量，通过仅使用 10 个时间步进行训练和采样，相比 DDPM，Fast-DDPM 能够在医学图像生成任务中优于基于卷积网络和生成对抗网络的当前最先进方法，并将训练时间缩短了 5 倍，采样时间缩短了 100 倍。

May, 2024