基于扩散的文本转语音模型的语义潜空间

Feb, 2024

基于扩散的文本转语音模型的语义潜空间

On the Semantic Latent Space of Diffusion-Based Text-to-Speech Models

Miri Varshavsky Hassid, Roy Hirsch, Regev Cohen, Tomer Golany, Daniel Freedman...

TL;DR在语音合成领域中，噪声扩散模型（Denoising Diffusion Models，DDMs）的整合应用日益增多。尽管其音频质量出色，但其语义能力的程度未知，并且控制其合成语音的音色属性仍然具有挑战性。受到图像合成的最新进展的启发，我们探索了冻结 TTS 模型的潜在空间，该空间由 DDM 的降噪器的潜在瓶颈激活组成。我们发现这个空间包含丰富的语义信息，并提出了一些新方法来在其中找到语义方向，包括有监督和无监督的方法。然后，我们演示了如何利用这些方法进行即插即用的音频编辑，无需进一步训练、架构更改或数据要求。我们提供了编辑音频的语义和声学质量的证据，并提供了补充样本：[链接]。

Abstract

The incorporation of denoising diffusion models (DDMs) in the text-to-speech (TTS) domain is rising, providing great value in synthesizing high quality speech. Although they exhibit impressive audio quality, the

denoising diffusion models text-to-speech semantic capabilities vocal properties latent space

发现论文，激发创造

基于条件扩散模型和语言模型的最小监督语音合成：语义编码的比较研究

通过结合两种离散语音表示形式并使用两个序列到序列任务解耦合 TTS，最近在对可以以最低限度的监督进行训练的 TTS 方法中产生了越来越大的兴趣。我们提出了 Diff-LM-Speech，它在扩散模型的基础上将语义嵌入建模为基于 mel-spectrogram，并引入了基于变分自动编码器和韵律瓶颈的提示编码结构，以提高提示表示能力。我们还提出了 Tetra-Diff-Speech，通过设计一个持续时间扩散模型来实现多样化的韵律表达。同时，我们提出了 Tri-Diff-Speech 来验证语义编码的必要性。实验结果表明，我们的方法优于基准方法。我们提供了一个包含音频样本的网站。

Jul, 2023

预先训练文本到语音模型的潜在空间改变研究，以提高表现力

深入探讨了在 Text-to-Speech（TTS）模型中通过在冻结的预训练模型中增加以联合语义音频 / 文本嵌入为条件的扩散模型来增强表达能力控制的挑战。论文识别了使用基于 VAE 的 TTS 模型时遇到的挑战，并评估了用于改变潜在语音特征的不同图像到图像方法。我们的结果为向 TTS 系统添加表达能力控制的复杂性提供了有价值的见解，并为未来研究开拓了新的方向。

Nov, 2023

DiffGAN-TTS: 用去噪扩散 GAN 实现高保真和高效的文本转语音

本文介绍了一种新的基于 Denoising Diffusion Generative Adversarial Networks 的文本到语音模型 (DiffGAN-TTS)，该模型通过多说话人 TTS 实验表明，仅需 4 个去噪步骤即可生成高保真度语音样本，并提出了一个两阶段训练方案，可在仅 1 个去噪步骤下实现高质量的语音合成性能。

Jan, 2022

Diff-TTS: 一种文本到语音去噪扩散模型

本文介绍了一种新型非自回归 TTS 模型 Diff-TTS，以噪声信号与扩散时间步长探索去噪扩散框架，同时引入基于可能性的 TTS 优化方法，利用加速采样方法提高波形合成速度，实验证明 Diff-TTS 单独搭载一枚 NVIDIA 2080Ti 显卡比实时生成快 28 倍，并且质量良好。

Apr, 2021

AudioLDM：使用潜在扩散模型进行文本到音频生成

本文介绍了一种基于潜在空间的 Text-to-audio（TTA）系统 AudioLDM，它使用对比语音 - 语言预训练（CLAP）潜在信息学习连续音频表示，并以文本嵌入作为采样条件，从而在生成质量和计算效率方面具有优势，实测效果接近官方记录，并可以进行零 - shot 文本引导音频操作，如风格转移。

Jan, 2023

高保真度语音合成的最小监督方法：全部使用扩散模型

我们提出了一种基于扩散模型的最小监督高保真语音合成方法，其中所有模块均基于扩散模型构建，非自回归框架增强了可控性，持续时间扩散模型实现了多样化的韵律表达。

Sep, 2023

NaturalSpeech 2: 潜在扩散模型是自然且零 - shot 的语音和歌唱合成器

本研究提出了一种利用神经音频编解码器和扩散模型生成取定潜向量的文本转语音系统，同时设计了自然语音提示机制以促进扩散模型和时域 / 频域预测器的上下文学习，能够实现不同说话人以及多样化合成的语音转换。实验表明，在零样本情况下，与之前的 TTS 系统相比，本系统在语调、音色相似度、鲁棒性和音质方面都有显著的提高，并能通过只提供语音提示来实现新的零样本歌唱合成。

Apr, 2023

DiTTo-TTS：高效可扩展的零样本文本到语音系统基于扩散 Transformer

利用大规模扩散模型做无领域特定建模的语音合成，通过跨注意机制和对语音表示总长度的预测来解决文本 - 语音对齐的问题，在语音的潜在空间中结合语义引导进行提升。该模型在 82K 小时的训练数据和 790M 参数的模型规模上进行了训练，实验证明它在自然度、可懂度和说话人相似度等指标上不仅简化了训练流程，而且具有与最先进的 TTS 模型相媲美的零 - shot 性能。

Jun, 2024

使用指令调整的 LLM 和潜在扩散模型生成文本到语音

本研究采用基于指令调整的大型语言模型 Flan-T5 作为文本编码器，通过使用基于声音压力级的声音混合来进行训练集增强，从而取得了比 AudioLDM 更好的结果，成为了生成文字描述音频的任务中的最佳选择。

Apr, 2023

使用双判别器对去噪扩散模型进行对抗训练的高保真多说话人 TTS

通过在扩散模型中引入两个辨别器（扩散辨别器和频谱图辨别器），我们提出了一种音频合成模型，其在各项评估指标中均优于 FastSpeech2 和 DiffGAN-TTS，并通过结构相似性指数、梅尔倒谱失真、F0 均方根误差、短时客观可懂性、语音质量感知评估和主观平均意见得分等客观和主观度量对该模型进行了评估。

Aug, 2023