跨语句有条件变分自编码器用于非自回归式文本到语音

ACLMay, 2022

跨语句有条件变分自编码器用于非自回归式文本到语音

Cross-Utterance Conditioned VAE for Non-Autoregressive Text-to-Speech

Yang Li, Cheng Yu, Guangzhi Sun, Hua Jiang, Fanglei Sun...

TL;DR本文提出了一种跨话语 CUC-VAE 模型来估计每个音素的潜在韵律特征的后验概率分布，该模型结合语音，说话人信息和文本特征，并允许与上下文相关的生成韵律特征，实验结果表明此模型可以显著提高其自然度和韵律分布。

Abstract

Modelling prosody variation is critical for synthesizing natural and expressive speech in end-to-end text-to-speech (TTS) systems. In this paper, a cross-utterance conditional VAE (→

prosody variation text-to-speech cuc-vae latent prosody naturalness

发现论文，激发创造

跨语句条件化变分自编码器的语音生成

利用神经网络驱动的语音合成系统解决了表达性语音和无缝编辑的问题，通过 Cross-Utterance Conditioned Variational Autoencoder speech synthesis (CUC-VAE S2) 框架提供了上下文敏感的韵律特征生成和模拟人类语音韵律生成的实现方式，并在文本转语音和语音编辑两个方面提出了实用的算法，实验证明这些模型显著提升了语音合成和编辑的效果。

Sep, 2023

利用跨句 BERT Embeddings 改进韵律建模实现端到端语音合成

提出了一种使用上下文信息和 BERT 嵌入的文本表征来在端到端的方式中进行语调生成，实验表明这种方法可以显著提高合成语音的自然度和表现力，并可以通过更改相邻的句子间接地控制语调。

Nov, 2020

UTTS：基于条件去耦合序列变分自编码器的无监督语音合成

本文提出了一种新的无监督文本到语音（UTTS）框架，支持零样本语音克隆和高自然度、可理解度语音合成，是从分离的语音表示学习的角度开发的多说话人语音合成器，其利用了最近在自监督语音表示学习和语音合成前端技术方面的先进进展，在训练期间提供了条件分离的时序变分自编码器（C-DSVAE）作为骨干 UTTS AM。

Jun, 2022

利用量化的细粒度 VAE 和自回归韵律先验生成多样且自然的文本语音样本

本文提出了一种离散潜在空间的顺序先验方法，可以更自然地生成高度连续的语音，通过使用向量量化（VQ）对潜在特征进行离散化，并分别在结果上训练自回归（AR）先验模型，在听觉测试和自动语音识别（ASR）性能的客观指标方面，实验结果表明所提出的模型显著提高了随机样本生成的自然度，而且随机从所提出的模型中采样可以用作提高 ASR 性能的数据增强。

Feb, 2020

基于语言驱动的动态分层变分网络合成不同语调语音

本研究提出了一种新的层次化有条件变分自编码器，用于生成声调特征，可用于合成语音信号，与现有技术相比具有更高的性能。

May, 2019

提升变分个性化和移情对话代理的上下文连贯性

通过引入 Uncertainty Aware CVAE 框架来近似和整合响应生成过程中的 aleatoric 不确定性，改善个性化和移情式对话生成中生成响应的上下文连贯性。同时，研究者们提出了一种新的自动度量方法来衡量生成响应的上下文连贯性，并且该度量与人类的判断显著相关。

Feb, 2022

层次式生成模型用于可控语音合成

该研究提出了一种神经序列到序列的文本转语音模型，基于变分自动编码器（VAE）框架，通过两级分层潜变量，实现对生成语音中很少被训练数据标记的潜在属性的控制，包括口音、语速、噪声等，其中第一级为类别变量，第二级为多元高斯变量，通过高斯混合模型 (GMM) 实现。经广泛评估，该模型展现出控制这些潜在属性的能力。

Oct, 2018

可解释语音合成的全层次精细韵律建模

本文提出了一种基于 Tacotron 2 的分层、细粒度和可解释的潜变量模型，实现了 prosody 的多分辨率建模，并使用有条件的 VAE 结构对所有潜在维度进行分层约束，提升了模型的可解释性和分离性能。

Feb, 2020

带有对抗学习的条件变分自编码器用于端到端的文本转语音

本篇论文提出了一种使用正则化流和对抗式训练改进的变分推断的并行端到端的语音合成方法，还引入了基于随机预测的语音节奏模型来解决单一文本多样合成的问题。主题涉及文本转语音、端到端模型、变分推断、随机预测、生成模型。相关实验显示本方法表现优于其他公开数据集上的最佳 TTS 系统，并能达到类似于真实语音自然度的效果。

Jun, 2021

基于非自回归式、深度 VAE 和残差注意力的文本转语音合成算法 VARA-TTS

本文提出了一个采用多层变分自动编码器和残差注意机制的 VARA-TTS 非自回归文本到语音模型，通过逐层精细化文本到声学对齐，将学习负担分摊到多个注意力层中，相比单个注意力层具有更强的稳健性，并使用一个共同训练的发音速度预测器计算话语级别的发音速度，以确定推理时的声学帧数。实验结果表明，VARA-TTS 在推理速度上具有数量级的提升，并且语音质量略逊于 AR 模型 Tacotron 2，但在语音质量方面优于相似的非自回归模型 BVAE-TTS。

Feb, 2021