薛定谔桥在文本转语音合成上胜过扩散模型
本文介绍了一种新型非自回归 TTS 模型 Diff-TTS,以噪声信号与扩散时间步长探索去噪扩散框架,同时引入基于可能性的 TTS 优化方法,利用加速采样方法提高波形合成速度,实验证明 Diff-TTS 单独搭载一枚 NVIDIA 2080Ti 显卡比实时生成快 28 倍,并且质量良好。
Apr, 2021
Grad-TTS 是一款使用基于得分的解码器的文本转语音模型,使用随机微积分的方法将通过噪声预测的语音信号和文本输入进行逐步变换,从而实现噪声到语音的重建,并能够在保持音质、推理速度之间进行灵活平衡。主观人评表明 Grad-TTS 在 Mean Opinion Score 方面具有与最先进的文本转语音方法相竞争的能力。
May, 2021
本文旨在探究扩散模型用于语音识别的潜在性,提出了以预训练的语音特征为条件的扩散模型 TransFusion,并通过 LibriSpeech 语音识别基准测试展示了与现有高性能反差模型可比的性能。同时,我们提出了有效采样和译码多项式扩散模型的新技术。
Oct, 2022
通过在潜空间中利用 Schr {"o} dinger bridge 扩散模型构建新的生成学习方法,本文对当前扩散模型进行了全面的理论分析,包括利用预训练的编码器 - 解码器架构和 Schr {"o} dinger bridge 框架开发了潜空间中的扩散模型,通过控制生成分布和目标分布之间的二阶 Wasserstein 距离,获得了收敛速率,从而为现有的扩散模型提供了稳健的理论支持。
Apr, 2024
利用大规模扩散模型做无领域特定建模的语音合成,通过跨注意机制和对语音表示总长度的预测来解决文本 - 语音对齐的问题,在语音的潜在空间中结合语义引导进行提升。该模型在 82K 小时的训练数据和 790M 参数的模型规模上进行了训练,实验证明它在自然度、可懂度和说话人相似度等指标上不仅简化了训练流程,而且具有与最先进的 TTS 模型相媲美的零 - shot 性能。
Jun, 2024
DiffuseST 是一种低延迟的直接语音到语音翻译系统,能够在将多种源语言翻译为英语时保持输入讲话人的声音;我们通过比较基于 Tacotron 的合成器和基于扩散的合成器,发现基于扩散的合成器在提高音频质量度量 MOS 和 PESQ 各自达到 23%以及讲话人相似度提高 5%的同时,保持相当的 BLEU 得分;尽管参数数量超过两倍,扩散合成器具有更低的延迟,使整个模型的运行速度超过实时的 5 倍以上。
Jun, 2024
通过结合两种离散语音表示形式并使用两个序列到序列任务解耦合 TTS,最近在对可以以最低限度的监督进行训练的 TTS 方法中产生了越来越大的兴趣。我们提出了 Diff-LM-Speech,它在扩散模型的基础上将语义嵌入建模为基于 mel-spectrogram,并引入了基于变分自动编码器和韵律瓶颈的提示编码结构,以提高提示表示能力。我们还提出了 Tetra-Diff-Speech,通过设计一个持续时间扩散模型来实现多样化的韵律表达。同时,我们提出了 Tri-Diff-Speech 来验证语义编码的必要性。实验结果表明,我们的方法优于基准方法。我们提供了一个包含音频样本的网站。
Jul, 2023
本文介绍了一种新的基于 Denoising Diffusion Generative Adversarial Networks 的文本到语音模型 (DiffGAN-TTS),该模型通过多说话人 TTS 实验表明,仅需 4 个去噪步骤即可生成高保真度语音样本,并提出了一个两阶段训练方案,可在仅 1 个去噪步骤下实现高质量的语音合成性能。
Jan, 2022
通过在扩散模型中引入两个辨别器(扩散辨别器和频谱图辨别器),我们提出了一种音频合成模型,其在各项评估指标中均优于 FastSpeech2 和 DiffGAN-TTS,并通过结构相似性指数、梅尔倒谱失真、F0 均方根误差、短时客观可懂性、语音质量感知评估和主观平均意见得分等客观和主观度量对该模型进行了评估。
Aug, 2023
我们提出了一种基于扩散模型的最小监督高保真语音合成方法,其中所有模块均基于扩散模型构建,非自回归框架增强了可控性,持续时间扩散模型实现了多样化的韵律表达。
Sep, 2023