零样本语音调制用于去噪扩散 TTS 模型

Jun, 2022

零样本语音调制用于去噪扩散 TTS 模型

Zero-Shot Voice Conditioning for Denoising Diffusion TTS Models

Alon Levkovitch, Eliya Nachmani, Lior Wolf

TL;DR本文提出了一种新的方法，通过采样识别新目标的自然语音数据，并在推理期间利用加噪扩散语音模型生成具有目标讲话者相似声音的音频，而不需要进行任何训练步骤。

Abstract

We present a novel way of conditioning a pretrained denoising diffusion speech model to produce speech in the voice of a novel person unseen during training. The method requires a short (~3 seconds) sample from the target person, and generation is steered at inference time, without any

speech model voice cloning sampling method pretrained model target speaker

发现论文，激发创造

Diff-TTS: 一种文本到语音去噪扩散模型

本文介绍了一种新型非自回归 TTS 模型 Diff-TTS，以噪声信号与扩散时间步长探索去噪扩散框架，同时引入基于可能性的 TTS 优化方法，利用加速采样方法提高波形合成速度，实验证明 Diff-TTS 单独搭载一枚 NVIDIA 2080Ti 显卡比实时生成快 28 倍，并且质量良好。

Apr, 2021

TransFusion: 用多项式扩散转录语音

本文旨在探究扩散模型用于语音识别的潜在性，提出了以预训练的语音特征为条件的扩散模型 TransFusion，并通过 LibriSpeech 语音识别基准测试展示了与现有高性能反差模型可比的性能。同时，我们提出了有效采样和译码多项式扩散模型的新技术。

Oct, 2022

NaturalSpeech 2: 潜在扩散模型是自然且零 - shot 的语音和歌唱合成器

本研究提出了一种利用神经音频编解码器和扩散模型生成取定潜向量的文本转语音系统，同时设计了自然语音提示机制以促进扩散模型和时域 / 频域预测器的上下文学习，能够实现不同说话人以及多样化合成的语音转换。实验表明，在零样本情况下，与之前的 TTS 系统相比，本系统在语调、音色相似度、鲁棒性和音质方面都有显著的提高，并能通过只提供语音提示来实现新的零样本歌唱合成。

Apr, 2023

Voice Filter: 基于语音转换后处理模块的少样本文本转语音说话人自适应

本文提出一种极低资源语音合成方法 Voice Filter，它只需要使用目标发言人的一分钟语音，采用基于声音转换（VC）的后处理模块来增强现有的高质量 TTS 系统，成功地解决了低资源 TTS 系统训练中的质量和可理解性降低的问题，并将少样本 TTS 问题视为 VC 任务。此外，本文还提出使用一种持续可控的 TTS 系统创建平行语音语料库以促进 VC 任务。结果表明，Voice Filter 在多个基于大量语音数据声音的客观和主观度量上表现优异。

Feb, 2022

DiffVoice: 基于潜在扩散的文本到语音

本文提出 DiffVoice，一种基于潜在扩散的文本转语音模型。在 LJSpeech 和 LibriTTS 数据集上的主观评价表明，我们的方法在自然度方面优于当前公开可用的最佳系统，并且通过采用最近的生成逆问题解决算法，DiffVoice 在基于文本的语音编辑和零样本适应方面实现了最先进的性能。

Apr, 2023

使用自监督语音表示模型进行零样本文本转语音合成

本研究提出了一种零样本文本转语音模型，使用自监督学习获取的语音表示模型进行条件控制，并引入了声学特征和音素持续时间预测器的分离调制以提高重现性能和语音转换效果。

Apr, 2023

通过内容传递减少数据分布恢复步骤以加快扩散模型中的语音合成

通过使用扩散过程中前向时间步的不同输出作为目标，该论文提出了一种降低预测误差幅度、减少训练时间的方法，通过神经网络层逐步去噪最终生成清晰音频，该技术在时间效率和音频质量上超越了现有的先进工具并具有良好的泛化能力。

Sep, 2023

DenoiSpeech：基于帧级噪声建模的去噪语音合成

本研究提出了 DenoiSpeech 系统，它可以处理具有高噪声变异的实际世界噪声，使用细粒度的帧级噪声建模噪声条件模块与 TTS 模型共同训练，实验结果表明，DenoiSpeech 在真实环境数据上的性能要优于之前提出的两种方法 0.31 和 0.66 MOS。

Dec, 2020

DiffGAN-TTS: 用去噪扩散 GAN 实现高保真和高效的文本转语音

本文介绍了一种新的基于 Denoising Diffusion Generative Adversarial Networks 的文本到语音模型 (DiffGAN-TTS)，该模型通过多说话人 TTS 实验表明，仅需 4 个去噪步骤即可生成高保真度语音样本，并提出了一个两阶段训练方案，可在仅 1 个去噪步骤下实现高质量的语音合成性能。

Jan, 2022

NoreSpeech: 基于知识蒸馏的条件扩散模型，用于噪声鲁棒性表达 TTS

本论文提出了一种噪声鲁棒的表现性文本转语音模型（NoreSpeech），它能够从嘈杂的语音参考中有效地转移说话风格到合成语音中，这是通过一个新颖的 DiffStyle 模块，一个 VQ-VAE 块和一个可控的文本对齐模块实现的。实验表明，NoreSpeech 在噪声环境中比以前的表现性 TTS 模型更有效。

Nov, 2022