使用双判别器对去噪扩散模型进行对抗训练的高保真多说话人 TTS

Aug, 2023

使用双判别器对去噪扩散模型进行对抗训练的高保真多说话人 TTS

Adversarial Training of Denoising Diffusion Model Using Dual Discriminators for High-Fidelity Multi-Speaker TTS

Myeongjin Ko, Yong-Hoon Choi

TL;DR通过在扩散模型中引入两个辨别器（扩散辨别器和频谱图辨别器），我们提出了一种音频合成模型，其在各项评估指标中均优于 FastSpeech2 和 DiffGAN-TTS，并通过结构相似性指数、梅尔倒谱失真、F0 均方根误差、短时客观可懂性、语音质量感知评估和主观平均意见得分等客观和主观度量对该模型进行了评估。

Abstract

The diffusion model is capable of generating high-quality data through a probabilistic approach. However, it suffers from the drawback of slow generation speed due to the requirement of a large number of time steps. To address this limitation, recent models such as denoising diffusion

diffusion model ddim diffgan-tts speech synthesis performance evaluation

发现论文，激发创造

DiffGAN-TTS: 用去噪扩散 GAN 实现高保真和高效的文本转语音

本文介绍了一种新的基于 Denoising Diffusion Generative Adversarial Networks 的文本到语音模型 (DiffGAN-TTS)，该模型通过多说话人 TTS 实验表明，仅需 4 个去噪步骤即可生成高保真度语音样本，并提出了一个两阶段训练方案，可在仅 1 个去噪步骤下实现高质量的语音合成性能。

Jan, 2022

Diff-TTS: 一种文本到语音去噪扩散模型

本文介绍了一种新型非自回归 TTS 模型 Diff-TTS，以噪声信号与扩散时间步长探索去噪扩散框架，同时引入基于可能性的 TTS 优化方法，利用加速采样方法提高波形合成速度，实验证明 Diff-TTS 单独搭载一枚 NVIDIA 2080Ti 显卡比实时生成快 28 倍，并且质量良好。

Apr, 2021

半隐式去噪扩散模型（SIDDM）

通过匹配隐式和显式因素，我们提出了一种新的方法，以解决生成模型中的采样难题，该方法利用隐式模型匹配噪声数据的边缘分布和前向扩散的显式条件分布，以有效地匹配联合降噪分布，并获得与扩散模型相当的生成性能和比采样步骤少的模型相比更好的结果。

Jun, 2023

用去噪漂移 GAN 解决生成学习三难问题

本文提出了一种基于多模式条件 GAN，使其具有高样本质量、高模式覆盖和快速采样三个特性的去噪扩散生成对抗网络，同时在 CIFAR-10 数据集上比原扩散模型快 2000 倍，并且是第一种将采样成本降至足够低以便于应用于实际应用的模型。

Dec, 2021

通过扩散 GAN 提升无监督语音识别

使用扩散 - GAN 提高无监督自动语音识别的敌对训练方法。将各种强度的实例噪声注入生成器的输出和来自预训练音素语言模型的未标记参考文本，使用时间步骤相关的判别器将它们分开，并将梯度反向传播更新生成器，实验表明该增强策略能有效地提高语音识别词错误率。

Mar, 2023

ProDiff：高质量语音合成的渐进式快速扩散模型

本文提出了一种名为 ProDiff 的文本到语音模型，它利用渐进式快速扩散模型直接预测干净数据来减少扰动模型迭代次数，从而提高高质量的音频语音合成速度。使用基于 GPU 硬件的 ProDiff 模型可以实现 24 倍于实时速度的语音合成，相对于其他使用数百步骤的模型，它只需要进行 2 次模型迭代就能合成高保真和多样化的语音合成样本.

Jul, 2022

用于生成性语音增强的单步和少步扩散

通过两阶段训练方法，我们解决了扩散模型在语音增强中的潜在问题，实现了与基准模型相当的性能，缩短了推理过程时间，并显著优于扩散基线模型。

Sep, 2023

动态双输出扩散模型

在这篇文章中，我们发现了扩散模型生成质量受到迭代次数限制的根本原因，并提出了一个简单而有效的解决方案来缓解这些影响。我们的解决方案可以应用于任何现有的扩散模型，并且在各种 SOTA 体系结构上运行多个数据集和配置进行实验和详尽的消融研究，证明能够立即提高它们的生成质量。

Mar, 2022

扩散模型实现逼真噪声合成

该研究论文提出了一种基于扩散模型的合成逼真噪声的新方法，用于为困难获得真实数据的情景下的训练去噪模型提供大量高质量的数据，并在多个基准测试上证明了其方法的优越性.

May, 2023

TransFusion: 用多项式扩散转录语音

本文旨在探究扩散模型用于语音识别的潜在性，提出了以预训练的语音特征为条件的扩散模型 TransFusion，并通过 LibriSpeech 语音识别基准测试展示了与现有高性能反差模型可比的性能。同时，我们提出了有效采样和译码多项式扩散模型的新技术。

Oct, 2022