Diff-TTS: 一种文本到语音去噪扩散模型
本文介绍了一种新的基于 Denoising Diffusion Generative Adversarial Networks 的文本到语音模型 (DiffGAN-TTS),该模型通过多说话人 TTS 实验表明,仅需 4 个去噪步骤即可生成高保真度语音样本,并提出了一个两阶段训练方案,可在仅 1 个去噪步骤下实现高质量的语音合成性能。
Jan, 2022
本文提出了一种名为 ProDiff 的文本到语音模型,它利用渐进式快速扩散模型直接预测干净数据来减少扰动模型迭代次数,从而提高高质量的音频语音合成速度。使用基于 GPU 硬件的 ProDiff 模型可以实现 24 倍于实时速度的语音合成,相对于其他使用数百步骤的模型,它只需要进行 2 次模型迭代就能合成高保真和多样化的语音合成样本.
Jul, 2022
Grad-TTS 是一款使用基于得分的解码器的文本转语音模型,使用随机微积分的方法将通过噪声预测的语音信号和文本输入进行逐步变换,从而实现噪声到语音的重建,并能够在保持音质、推理速度之间进行灵活平衡。主观人评表明 Grad-TTS 在 Mean Opinion Score 方面具有与最先进的文本转语音方法相竞争的能力。
May, 2021
本文提出 DiffVoice,一种基于潜在扩散的文本转语音模型。在 LJSpeech 和 LibriTTS 数据集上的主观评价表明,我们的方法在自然度方面优于当前公开可用的最佳系统,并且通过采用最近的生成逆问题解决算法,DiffVoice 在基于文本的语音编辑和零样本适应方面实现了最先进的性能。
Apr, 2023
通过在扩散模型中引入两个辨别器(扩散辨别器和频谱图辨别器),我们提出了一种音频合成模型,其在各项评估指标中均优于 FastSpeech2 和 DiffGAN-TTS,并通过结构相似性指数、梅尔倒谱失真、F0 均方根误差、短时客观可懂性、语音质量感知评估和主观平均意见得分等客观和主观度量对该模型进行了评估。
Aug, 2023
本文旨在探究扩散模型用于语音识别的潜在性,提出了以预训练的语音特征为条件的扩散模型 TransFusion,并通过 LibriSpeech 语音识别基准测试展示了与现有高性能反差模型可比的性能。同时,我们提出了有效采样和译码多项式扩散模型的新技术。
Oct, 2022
在这项研究中,我们提出了一种新的文本到语音系统,Bridge-TTS,通过将已建立的基于扩散的 TTS 方法中的嘈杂高斯先验替换为干净的确定性先验,以实现对目标的强结构信息的首次替代。
Dec, 2023
FastDiff 是一种快速条件扩散模型,通过应用时间感知的位置可变卷积和噪声预测器,实现了高质量语音合成,并在端到端文本到语音合成中实现了高保真度的语音波形生成,速度快达 58 倍。
Apr, 2022
通过结合两种离散语音表示形式并使用两个序列到序列任务解耦合 TTS,最近在对可以以最低限度的监督进行训练的 TTS 方法中产生了越来越大的兴趣。我们提出了 Diff-LM-Speech,它在扩散模型的基础上将语义嵌入建模为基于 mel-spectrogram,并引入了基于变分自动编码器和韵律瓶颈的提示编码结构,以提高提示表示能力。我们还提出了 Tetra-Diff-Speech,通过设计一个持续时间扩散模型来实现多样化的韵律表达。同时,我们提出了 Tri-Diff-Speech 来验证语义编码的必要性。实验结果表明,我们的方法优于基准方法。我们提供了一个包含音频样本的网站。
Jul, 2023
本文对音频扩散模型进行了调查,针对文本转语音和语音增强这两个活跃任务,它将方法分为三类,即声学模型、波导合成和端到端框架,并通过添加或去除特定信号将各种语音增强任务进行分类,最后进行实验结果比较和讨论。
Mar, 2023