Guided-TTS: 基于分类器指导的文本语音合成扩散模型

ICMLNov, 2021

Guided-TTS: 基于分类器指导的文本语音合成扩散模型

Guided-TTS: A Diffusion Model for Text-to-Speech via Classifier Guidance

Heeseung Kim, Sungwon Kim, Sungroh Yoon

TL;DR本文介绍了一种名为 Guided-TTS 的高质量文本到语音 (TTS) 模型，使用分类器指导，不需要目标说话者的任何转录。具体来说，无条件扩散模型通过大规模语音识别数据集上训练的音素分类器指导生成 Diffusion 网络参数，实现了单批次推理下的 TTS 合成。实验结果表明，与最先进的 TTS 模型 Grad-TTS 相比，在 LJSpeech 数据集上，可以在没有转录的情况下达到性能可比的水平。同时，该模型能较好地适应多样化的数据集。

Abstract

We propose guided-tts, a high-quality text-to-speech (TTS) model that does not require any transcript of target speaker using classifier guidance. →

guided-tts text-to-speech diffusion probabilistic model phoneme classifier performance

发现论文，激发创造

Guided-TTS 2: 一种高质量自适应文本转语音扩散模型，可使用未转录数据

Guided-TTS 2 是一种基于扩散的生成模型，通过无文本数据实现高质量自适应语音合成。它结合了以发言者为条件的扩散模型和以发言者为依赖的音素分类器，借此适应文本到语音。通过无分类器指导的方法在大规模的未转录数据集上训练模型，然后在目标发言者的参考语音上进行微调，只需要 40 秒即可适应不同的语音。Guided-TTS 2 表现出与高质量单发言人 TTS 基准相当的语音质量和发言人相似性，只需要 10 秒未经转录的数据。在多发言人数据集上， Guided-TTS 2 即使在零样本自适应设置下也能胜过自适应 TTS 基线。而且，通过仅仅使用未转录语音就能够适应各种各样的声音，这使得非人类角色的语音也可以自适应合成，例如《指环王》中的咕噜姆。

May, 2022

Grad-TTS: 一种文本转语音的扩散概率模型

Grad-TTS 是一款使用基于得分的解码器的文本转语音模型，使用随机微积分的方法将通过噪声预测的语音信号和文本输入进行逐步变换，从而实现噪声到语音的重建，并能够在保持音质、推理速度之间进行灵活平衡。主观人评表明 Grad-TTS 在 Mean Opinion Score 方面具有与最先进的文本转语音方法相竞争的能力。

May, 2021

Diff-TTS: 一种文本到语音去噪扩散模型

本文介绍了一种新型非自回归 TTS 模型 Diff-TTS，以噪声信号与扩散时间步长探索去噪扩散框架，同时引入基于可能性的 TTS 优化方法，利用加速采样方法提高波形合成速度，实验证明 Diff-TTS 单独搭载一枚 NVIDIA 2080Ti 显卡比实时生成快 28 倍，并且质量良好。

Apr, 2021

Grad-StyleSpeech: 基于扩散模型的任意说话人自适应语音合成

本研究提出了一种基于扩散模型的 Grad-StyleSpeech 方法，可以在很短时间内生成极具声音相似度的自适应语音合成，并在英文基准测试中显著优于最新的语音合成基线。

Nov, 2022

薛定谔桥在文本转语音合成上胜过扩散模型

在这项研究中，我们提出了一种新的文本到语音系统，Bridge-TTS，通过将已建立的基于扩散的 TTS 方法中的嘈杂高斯先验替换为干净的确定性先验，以实现对目标的强结构信息的首次替代。

Dec, 2023

音频扩散模型：关于生成 AI 中的文本转语音和语音增强的综述

本文对音频扩散模型进行了调查，针对文本转语音和语音增强这两个活跃任务，它将方法分为三类，即声学模型、波导合成和端到端框架，并通过添加或去除特定信号将各种语音增强任务进行分类，最后进行实验结果比较和讨论。

Mar, 2023

TransFusion: 用多项式扩散转录语音

本文旨在探究扩散模型用于语音识别的潜在性，提出了以预训练的语音特征为条件的扩散模型 TransFusion，并通过 LibriSpeech 语音识别基准测试展示了与现有高性能反差模型可比的性能。同时，我们提出了有效采样和译码多项式扩散模型的新技术。

Oct, 2022

DiTTo-TTS：高效可扩展的零样本文本到语音系统基于扩散 Transformer

利用大规模扩散模型做无领域特定建模的语音合成，通过跨注意机制和对语音表示总长度的预测来解决文本 - 语音对齐的问题，在语音的潜在空间中结合语义引导进行提升。该模型在 82K 小时的训练数据和 790M 参数的模型规模上进行了训练，实验证明它在自然度、可懂度和说话人相似度等指标上不仅简化了训练流程，而且具有与最先进的 TTS 模型相媲美的零 - shot 性能。

Jun, 2024

GLIDE: 基于文本引导扩散模型的逼真图像生成和编辑

本研究探讨了扩散模型在文本条件下生成图像的问题，并比较了不同的指导策略：CLIP 指导和无分类器指导。结果发现对于照片逼真度和字幕相似性，后者更受人类评估人员的青睐，还可以进行图像修复。

Dec, 2021

高保真度语音合成的最小监督方法：全部使用扩散模型

我们提出了一种基于扩散模型的最小监督高保真语音合成方法，其中所有模块均基于扩散模型构建，非自回归框架增强了可控性，持续时间扩散模型实现了多样化的韵律表达。

Sep, 2023