Diff-TTS: 一种文本到语音去噪扩散模型

Apr, 2021

Diff-TTS: 一种文本到语音去噪扩散模型

Diff-TTS: A Denoising Diffusion Model for Text-to-Speech

Myeonghun Jeong, Hyeongju Kim, Sung Jun Cheon, Byoung Jin Choi, Nam Soo Kim

TL;DR本文介绍了一种新型非自回归 TTS 模型 Diff-TTS，以噪声信号与扩散时间步长探索去噪扩散框架，同时引入基于可能性的 TTS 优化方法，利用加速采样方法提高波形合成速度，实验证明 Diff-TTS 单独搭载一枚 NVIDIA 2080Ti 显卡比实时生成快 28 倍，并且质量良好。

Abstract

Although neural text-to-speech (TTS) models have attracted a lot of attention and succeeded in generating human-like speech, there is still room for improvements to its naturalness and architectural efficiency. In this work, we propose a novel non-autoregressive TTS model, namely

neural text-to-speech diff-tts denoising diffusion framework likelihood-based optimization accelerated sampling method

发现论文，激发创造

DiffGAN-TTS: 用去噪扩散 GAN 实现高保真和高效的文本转语音

本文介绍了一种新的基于 Denoising Diffusion Generative Adversarial Networks 的文本到语音模型 (DiffGAN-TTS)，该模型通过多说话人 TTS 实验表明，仅需 4 个去噪步骤即可生成高保真度语音样本，并提出了一个两阶段训练方案，可在仅 1 个去噪步骤下实现高质量的语音合成性能。

Jan, 2022

ProDiff：高质量语音合成的渐进式快速扩散模型

本文提出了一种名为 ProDiff 的文本到语音模型，它利用渐进式快速扩散模型直接预测干净数据来减少扰动模型迭代次数，从而提高高质量的音频语音合成速度。使用基于 GPU 硬件的 ProDiff 模型可以实现 24 倍于实时速度的语音合成，相对于其他使用数百步骤的模型，它只需要进行 2 次模型迭代就能合成高保真和多样化的语音合成样本.

Jul, 2022

Grad-TTS: 一种文本转语音的扩散概率模型

Grad-TTS 是一款使用基于得分的解码器的文本转语音模型，使用随机微积分的方法将通过噪声预测的语音信号和文本输入进行逐步变换，从而实现噪声到语音的重建，并能够在保持音质、推理速度之间进行灵活平衡。主观人评表明 Grad-TTS 在 Mean Opinion Score 方面具有与最先进的文本转语音方法相竞争的能力。

May, 2021

DiffVoice: 基于潜在扩散的文本到语音

本文提出 DiffVoice，一种基于潜在扩散的文本转语音模型。在 LJSpeech 和 LibriTTS 数据集上的主观评价表明，我们的方法在自然度方面优于当前公开可用的最佳系统，并且通过采用最近的生成逆问题解决算法，DiffVoice 在基于文本的语音编辑和零样本适应方面实现了最先进的性能。

Apr, 2023

使用双判别器对去噪扩散模型进行对抗训练的高保真多说话人 TTS

通过在扩散模型中引入两个辨别器（扩散辨别器和频谱图辨别器），我们提出了一种音频合成模型，其在各项评估指标中均优于 FastSpeech2 和 DiffGAN-TTS，并通过结构相似性指数、梅尔倒谱失真、F0 均方根误差、短时客观可懂性、语音质量感知评估和主观平均意见得分等客观和主观度量对该模型进行了评估。

Aug, 2023

TransFusion: 用多项式扩散转录语音

本文旨在探究扩散模型用于语音识别的潜在性，提出了以预训练的语音特征为条件的扩散模型 TransFusion，并通过 LibriSpeech 语音识别基准测试展示了与现有高性能反差模型可比的性能。同时，我们提出了有效采样和译码多项式扩散模型的新技术。

Oct, 2022

薛定谔桥在文本转语音合成上胜过扩散模型

在这项研究中，我们提出了一种新的文本到语音系统，Bridge-TTS，通过将已建立的基于扩散的 TTS 方法中的嘈杂高斯先验替换为干净的确定性先验，以实现对目标的强结构信息的首次替代。

Dec, 2023

FastDiff：一种快速的有条件扩散模型，用于高质量语音合成

FastDiff 是一种快速条件扩散模型，通过应用时间感知的位置可变卷积和噪声预测器，实现了高质量语音合成，并在端到端文本到语音合成中实现了高保真度的语音波形生成，速度快达 58 倍。

Apr, 2022

基于条件扩散模型和语言模型的最小监督语音合成：语义编码的比较研究

通过结合两种离散语音表示形式并使用两个序列到序列任务解耦合 TTS，最近在对可以以最低限度的监督进行训练的 TTS 方法中产生了越来越大的兴趣。我们提出了 Diff-LM-Speech，它在扩散模型的基础上将语义嵌入建模为基于 mel-spectrogram，并引入了基于变分自动编码器和韵律瓶颈的提示编码结构，以提高提示表示能力。我们还提出了 Tetra-Diff-Speech，通过设计一个持续时间扩散模型来实现多样化的韵律表达。同时，我们提出了 Tri-Diff-Speech 来验证语义编码的必要性。实验结果表明，我们的方法优于基准方法。我们提供了一个包含音频样本的网站。

Jul, 2023

音频扩散模型：关于生成 AI 中的文本转语音和语音增强的综述

本文对音频扩散模型进行了调查，针对文本转语音和语音增强这两个活跃任务，它将方法分为三类，即声学模型、波导合成和端到端框架，并通过添加或去除特定信号将各种语音增强任务进行分类，最后进行实验结果比较和讨论。

Mar, 2023