UTTS：基于条件去耦合序列变分自编码器的无监督语音合成

Jun, 2022

UTTS：基于条件去耦合序列变分自编码器的无监督语音合成

UTTS: Unsupervised TTS with Conditional Disentangled Sequential Variational Auto-encoder

Jiachen Lian, Chunlei Zhang, Gopala Krishna Anumanchipalli, Dong Yu

TL;DR本文提出了一种新的无监督文本到语音（UTTS）框架，支持零样本语音克隆和高自然度、可理解度语音合成，是从分离的语音表示学习的角度开发的多说话人语音合成器，其利用了最近在自监督语音表示学习和语音合成前端技术方面的先进进展，在训练期间提供了条件分离的时序变分自编码器（C-DSVAE）作为骨干 UTTS AM。

Abstract

In this paper, we propose a novel unsupervised text-to-speech (UTTS) framework which does not require text-audio pairs for the TTS acoustic modeling (AM). UTTS is a multi-speaker speech synthesizer that supports

unsupervised text-to-speech multi-speaker speech synthesizer disentangled speech representation self-supervised learning speech synthesis

发现论文，激发创造

无监督文本转语音合成与无监督自动语音识别

该论文提出了一种基于对齐模块输出伪文本和另一个合成模块使用伪文本进行训练和实际文本进行推断的无监督文本转语音综合系统，可以在每种语言的 10-20 小时语音中实现与监督系统相当的性能，并开展了对文本单元和声码器影响的研究。

Mar, 2022

带有对抗学习的条件变分自编码器用于端到端的文本转语音

本篇论文提出了一种使用正则化流和对抗式训练改进的变分推断的并行端到端的语音合成方法，还引入了基于随机预测的语音节奏模型来解决单一文本多样合成的问题。主题涉及文本转语音、端到端模型、变分推断、随机预测、生成模型。相关实验显示本方法表现优于其他公开数据集上的最佳 TTS 系统，并能达到类似于真实语音自然度的效果。

Jun, 2021

跨语句条件化变分自编码器的语音生成

利用神经网络驱动的语音合成系统解决了表达性语音和无缝编辑的问题，通过 Cross-Utterance Conditioned Variational Autoencoder speech synthesis (CUC-VAE S2) 框架提供了上下文敏感的韵律特征生成和模拟人类语音韵律生成的实现方式，并在文本转语音和语音编辑两个方面提出了实用的算法，实验证明这些模型显著提升了语音合成和编辑的效果。

Sep, 2023

DiscreTalk: 将文本转语音作为机器翻译问题

本文提出了一种基于神经机器翻译 (NMT) 的全自动文本语音 (E2E-TTS) 模型，该模型由非自回归向量量化变分自动编码器 (VQ-VAE) 模型和自回归 Transformer-NMT 模型两部分组成，实验结果表明，该模型在自然度方面表现优异，可与 VQ-VAE 模型的重构相媲美。

May, 2020

使用自监督语音表示模型进行零样本文本转语音合成

本研究提出了一种零样本文本转语音模型，使用自监督学习获取的语音表示模型进行条件控制，并引入了声学特征和音素持续时间预测器的分离调制以提高重现性能和语音转换效果。

Apr, 2023

基于言语风格潜在表示的端到端文本转语音技术：基于自然对话的研究

本研究旨在实现一种接近于人类对话的 TTS，通过基于 VAE/GMVAE-VITS 的训练，利用上下文信息来综合预测所需样式的语音合成，实验结果表明，该方法在对话级别的自然度方面优于原本的 VITS。

Jun, 2022

几乎无监督的文本转语音和自动语音识别

本文提出了一种基于 Transformer 模型的几乎无监督学习方法，结合 TTS 和 ASR 的双重特性，通过少量的配对数据和额外的未配对数据，实现了对语音和文本领域的语言建模，并在 LJSpeech 数据集上达到了 99.84% 的可懂单词率和 2.68 MOS 的 TTS 表现，以及 11.7% 的 ASR 错误率。

May, 2019

多对多口语翻译通过统一语音和文本表征学习与单元翻译

我们提出了一种方法，通过单一模型学习多语言语音和文本的统一表示，特别关注语音合成的目的。我们使用语音单元表示多语言语音音频，这是从自我监督语音模型编码的语音特征的量化表示。因此，我们可以将语音视为伪文本，并构建语音和文本的统一表示。然后，我们提出在多语言数据上通过单位到单位翻译 (UTUT) 目标训练编码器 - 解码器结构模型。通过使用源语言标记来确定编码器，使用目标语言标记来确定解码器，该模型被优化为将口语语言翻译为目标语言的翻译模型。因此，该模型可以建立口语语言的理解方式，并将其与不同语言相关联。单个经过预训练的 UTUT 模型可以用于各种多语言语音和文本相关任务，如语音到语音翻译 (STS)、多语言文本到语音合成 (TTS) 和文本到语音翻译 (TTST)。我们通过包含各种语言的综合实验验证了所提出方法的有效性。此外，我们展示了 UTUT 可以执行先前在文献中未探索的多对多语言 STS。样例可在此网址获取：https://URL

Aug, 2023

QS-TTS：基于向量量化的自监督语音表示学习的半监督文本朗读合成

本文提出了一种新颖的半监督文本到语音（TTS）框架 QS-TTS，通过利用更多未标记的语音音频，并借助向量量化的自监督语音表示学习（VQ-S3RL）来改善 TTS 质量，从而降低对有监督数据的需求。

Aug, 2023

跨语句有条件变分自编码器用于非自回归式文本到语音

本文提出了一种跨话语 CUC-VAE 模型来估计每个音素的潜在韵律特征的后验概率分布，该模型结合语音，说话人信息和文本特征，并允许与上下文相关的生成韵律特征，实验结果表明此模型可以显著提高其自然度和韵律分布。

May, 2022