E3 TTS：简易端到端扩散基于文本到语音技术

Nov, 2023

E3 TTS：简易端到端扩散基于文本到语音技术

E3 TTS: Easy End-to-End Diffusion-based Text to Speech

Yuan Gao, Nobuyuki Morioka, Yu Zhang, Nanxin Chen

TL;DR我们提出了一种简单高效的端到端扩散式文本转语音模型，通过扩散过程直接从纯文本生成音频波形。该模型无需中间表示，能够支持给定音频的灵活潜在结构，从而实现轻松适应零样本任务。实验证明，该模型能够生成高保真音频，接近最先进的神经网络语音合成系统的性能。

Abstract

We propose Easy End-to-End Diffusion-based Text to Speech, a simple and efficient end-to-end text-to-speech model based on diffusion. E3 TTS directly takes plain text as input and generates an audio waveform through an iterative refinement process. Unlike many prior work, E3 TTS does not rely on any intermediate representations like spectrogram features or a

easy end-to-end diffusion-based text-to-speech iterative refinement process temporal structure latent structure zero-shot tasks

发现论文，激发创造

Diff-TTS: 一种文本到语音去噪扩散模型

本文介绍了一种新型非自回归 TTS 模型 Diff-TTS，以噪声信号与扩散时间步长探索去噪扩散框架，同时引入基于可能性的 TTS 优化方法，利用加速采样方法提高波形合成速度，实验证明 Diff-TTS 单独搭载一枚 NVIDIA 2080Ti 显卡比实时生成快 28 倍，并且质量良好。

Apr, 2021

DiTTo-TTS：高效可扩展的零样本文本到语音系统基于扩散 Transformer

利用大规模扩散模型做无领域特定建模的语音合成，通过跨注意机制和对语音表示总长度的预测来解决文本 - 语音对齐的问题，在语音的潜在空间中结合语义引导进行提升。该模型在 82K 小时的训练数据和 790M 参数的模型规模上进行了训练，实验证明它在自然度、可懂度和说话人相似度等指标上不仅简化了训练流程，而且具有与最先进的 TTS 模型相媲美的零 - shot 性能。

Jun, 2024

音频扩散模型：关于生成 AI 中的文本转语音和语音增强的综述

本文对音频扩散模型进行了调查，针对文本转语音和语音增强这两个活跃任务，它将方法分为三类，即声学模型、波导合成和端到端框架，并通过添加或去除特定信号将各种语音增强任务进行分类，最后进行实验结果比较和讨论。

Mar, 2023

DiffVoice: 基于潜在扩散的文本到语音

本文提出 DiffVoice，一种基于潜在扩散的文本转语音模型。在 LJSpeech 和 LibriTTS 数据集上的主观评价表明，我们的方法在自然度方面优于当前公开可用的最佳系统，并且通过采用最近的生成逆问题解决算法，DiffVoice 在基于文本的语音编辑和零样本适应方面实现了最先进的性能。

Apr, 2023

ZET-Speech：基于扩散和基于风格的模型的零样本自适应情感可控语音合成

本文提出了一种零样本适应情绪可控 TTS 模型 ZET-Speech，旨在实现对任何说话者情感语音的合成，采用了域对抗学习和扩散模型的引导方法，实验结果表明，ZET-Speech 成功地合成了所需情感的自然和情感语音，适用于已知和未知说话者。

May, 2023

高效多语言语音转语音翻译的扩散合成器

DiffuseST 是一种低延迟的直接语音到语音翻译系统，能够在将多种源语言翻译为英语时保持输入讲话人的声音；我们通过比较基于 Tacotron 的合成器和基于扩散的合成器，发现基于扩散的合成器在提高音频质量度量 MOS 和 PESQ 各自达到 23％以及讲话人相似度提高 5％的同时，保持相当的 BLEU 得分；尽管参数数量超过两倍，扩散合成器具有更低的延迟，使整个模型的运行速度超过实时的 5 倍以上。

Jun, 2024

基于扩散的具有风格建模的表达性文本转语音系统对时间变异性进行研究

基于参考语音的语音合成已经被广泛研究来合成自然语音，但在获取良好的表达风格和提高模型泛化能力方面存在限制。本研究提出了基于扩散的表达性语音合成 (DEX-TTS)—— 一种用于参考语音合成的声学模型，具有增强的风格表达能力。DEX-TTS 基于通用的扩散语音合成框架，包括编码器和适配器，用于处理从参考语音中提取的风格。关键创新包括将风格区分为时不变和时变两个类别，以实现有效的风格提取，以及高泛化能力的编码器和适配器的设计。此外，我们引入了重叠的 patchify 和卷积频率 patch 嵌入策略，以改进基于 DiT 的扩散网络用于 TTS。DEX-TTS 在英语多说话人和情感多说话人数据集上在客观和主观评估方面取得了出色的性能，而无需依赖预训练策略。最后，对于单说话人数据集的一般 TTS 的比较结果验证了我们增强的扩散骨干的有效性。演示请参见此处。

Jun, 2024

薛定谔桥在文本转语音合成上胜过扩散模型

在这项研究中，我们提出了一种新的文本到语音系统，Bridge-TTS，通过将已建立的基于扩散的 TTS 方法中的嘈杂高斯先验替换为干净的确定性先验，以实现对目标的强结构信息的首次替代。

Dec, 2023

ESPnet2-TTS: TTS 研究的扩展边界

本研究介绍了一个名为 ESPnet2-TTS 的端到端文本转语音工具包，支持实时灵活预处理、神经语音编码器联合训练、先进的 TTS 模型及预训练模型。实验结果表明，该工具包生成的语音接近于真实语音，达到了顶尖水平。

Oct, 2021

DiscreTalk: 将文本转语音作为机器翻译问题

本文提出了一种基于神经机器翻译 (NMT) 的全自动文本语音 (E2E-TTS) 模型，该模型由非自回归向量量化变分自动编码器 (VQ-VAE) 模型和自回归 Transformer-NMT 模型两部分组成，实验结果表明，该模型在自然度方面表现优异，可与 VQ-VAE 模型的重构相媲美。

May, 2020