TransFusion: 用多项式扩散转录语音
本文介绍了一种新型非自回归 TTS 模型 Diff-TTS,以噪声信号与扩散时间步长探索去噪扩散框架,同时引入基于可能性的 TTS 优化方法,利用加速采样方法提高波形合成速度,实验证明 Diff-TTS 单独搭载一枚 NVIDIA 2080Ti 显卡比实时生成快 28 倍,并且质量良好。
Apr, 2021
扩展图像生成文献中的扩散模型框架以适应语音增强任务,通过探究扩散模型的设计方面,如神经网络预处理、训练损失权重、随机微分方程和反向过程中注入的随机性量,证明了先前的扩散模型语音增强系统的性能并非归因于干净和嘈杂信号之间的渐进转化,并表明适当的预处理、训练损失权重、随机微分方程和采样器选择可以在感知度度量方面优于流行的扩散模型语音增强系统,并减少约四分之一的计算成本。
Dec, 2023
通过在扩散模型中引入两个辨别器(扩散辨别器和频谱图辨别器),我们提出了一种音频合成模型,其在各项评估指标中均优于 FastSpeech2 和 DiffGAN-TTS,并通过结构相似性指数、梅尔倒谱失真、F0 均方根误差、短时客观可懂性、语音质量感知评估和主观平均意见得分等客观和主观度量对该模型进行了评估。
Aug, 2023
在这项研究中,我们提出了一种新的文本到语音系统,Bridge-TTS,通过将已建立的基于扩散的 TTS 方法中的嘈杂高斯先验替换为干净的确定性先验,以实现对目标的强结构信息的首次替代。
Dec, 2023
本文提出了一种名为 ProDiff 的文本到语音模型,它利用渐进式快速扩散模型直接预测干净数据来减少扰动模型迭代次数,从而提高高质量的音频语音合成速度。使用基于 GPU 硬件的 ProDiff 模型可以实现 24 倍于实时速度的语音合成,相对于其他使用数百步骤的模型,它只需要进行 2 次模型迭代就能合成高保真和多样化的语音合成样本.
Jul, 2022
本文介绍了一种新的基于 Denoising Diffusion Generative Adversarial Networks 的文本到语音模型 (DiffGAN-TTS),该模型通过多说话人 TTS 实验表明,仅需 4 个去噪步骤即可生成高保真度语音样本,并提出了一个两阶段训练方案,可在仅 1 个去噪步骤下实现高质量的语音合成性能。
Jan, 2022
本文对音频扩散模型进行了调查,针对文本转语音和语音增强这两个活跃任务,它将方法分为三类,即声学模型、波导合成和端到端框架,并通过添加或去除特定信号将各种语音增强任务进行分类,最后进行实验结果比较和讨论。
Mar, 2023
通过使用扩散过程中前向时间步的不同输出作为目标,该论文提出了一种降低预测误差幅度、减少训练时间的方法,通过神经网络层逐步去噪最终生成清晰音频,该技术在时间效率和音频质量上超越了现有的先进工具并具有良好的泛化能力。
Sep, 2023
本篇文章将去噪扩散模型引入图像融合领域,将融合任务作为图像到图像的转换,设计两种不同的条件注入模块,即风格转换调制和小波调制,注入粗粒度风格信息和细粒度高低频信息来生成融合图像,并讨论去噪扩散模型在图像融合中的残差学习和目标函数选择。基于定量和定性评估的广泛实验结果表明,在图像融合任务中具有最先进的结果和良好的泛化性能,希望本文可以激发其他工作的灵感,并深入了解该领域,以更好地将扩散模型应用于图像融合任务。
Apr, 2023
最近,条件评分驱动扩散模型在监督式语音增强领域引起了显著关注,取得了最先进的性能。然而,这些方法在泛化到未见条件时可能面临挑战。为了解决这个问题,我们引入了一种在无监督方式下操作、利用扩散模型的生成能力的替代方法。具体而言,训练阶段,在短时傅里叶变换(STFT)领域中使用评分驱动扩散模型学习了干净语音的先验分布,使其能够从高斯噪声中无条件地生成干净语音。然后,我们开发了一种通过将学习的干净语音先验与噪声模型结合起来进行语音增强的后验采样方法。噪声参数通过迭代的期望最大化(EM)方法与干净语音估计同时学习。据我们所知,这是第一个探索基于扩散的生成模型用于无监督语音增强的工作,与最近的变分自编码器(VAE)无监督方法和最先进的基于扩散的监督方法相比,取得了有希望的结果。因此,它为未来的无监督语音增强研究开辟了新的方向。
Sep, 2023