层次式生成模型用于可控语音合成

ICLROct, 2018

层次式生成模型用于可控语音合成

Hierarchical Generative Modeling for Controllable Speech Synthesis

Wei-Ning Hsu, Yu Zhang, Ron J. Weiss, Heiga Zen, Yonghui Wu...

TL;DR该研究提出了一种神经序列到序列的文本转语音模型，基于变分自动编码器（VAE）框架，通过两级分层潜变量，实现对生成语音中很少被训练数据标记的潜在属性的控制，包括口音、语速、噪声等，其中第一级为类别变量，第二级为多元高斯变量，通过高斯混合模型 (GMM) 实现。经广泛评估，该模型展现出控制这些潜在属性的能力。

Abstract

This paper proposes a neural sequence-to-sequence text-to-speech (TTS) model which can control latent attributes in the generated speech that are rarely annotated in the training data, such as speaking style, accent, background noise, and recording conditions. The model is formulated a

neural sequence-to-sequence tts model latent attributes variational autoencoder (vae) framework categorical variable multivariate gaussian variable

发现论文，激发创造

半监督生成建模用于可控语音合成

本文提出一种新颖的生成模型，它将最先进的神经文本到语音技术和半监督概率潜变量模型相结合。通过对某些潜变量进行部分监督，我们能够强制它们具有一致和可解释的特征，这在纯无监督的文本到语音模型中过去是不可能的。我们证明了我们的模型能够可靠地发现和控制语音的重要属性（例如情感和语速），即使只监督 1％（30 分钟）。在这样低的监督水平下，我们观察不到合成质量与最先进的基线水平相比的下降。

Oct, 2019

控制生成文本的发展

本文旨在通过学习简化的语义分离潜在表示来生成和控制自然语言句子，同时通过变分自编码器和全局属性判别器的组合来建立新的神经生成模型。该模型具有可解释性和高效性，可以生成符合要求的具有各种属性的句子。量化评估验证了该模型的生成准确性。

Mar, 2017

多说者语音合成的细粒度噪声控制

本文提出了一种基于对抗训练、表示瓶颈和音框级建模的无监督噪音建模方法和基于全层次变分自编码器的细粒度语调建模方法，以更好地进行语音合成并将主要因素与噪声和背景噪声分离。

Apr, 2022

可解释语音合成的全层次精细韵律建模

本文提出了一种基于 Tacotron 2 的分层、细粒度和可解释的潜变量模型，实现了 prosody 的多分辨率建模，并使用有条件的 VAE 结构对所有潜在维度进行分层约束，提升了模型的可解释性和分离性能。

Feb, 2020

控制性文本生成的变分自编码器综述

介绍了神经网络生成模型、自然语言处理、VAE、可控制生成、深度神经网络等相关概念和应用。

Nov, 2022

基于言语风格潜在表示的端到端文本转语音技术：基于自然对话的研究

本研究旨在实现一种接近于人类对话的 TTS，通过基于 VAE/GMVAE-VITS 的训练，利用上下文信息来综合预测所需样式的语音合成，实验结果表明，该方法在对话级别的自然度方面优于原本的 VITS。

Jun, 2022

带有对抗学习的条件变分自编码器用于端到端的文本转语音

本篇论文提出了一种使用正则化流和对抗式训练改进的变分推断的并行端到端的语音合成方法，还引入了基于随机预测的语音节奏模型来解决单一文本多样合成的问题。主题涉及文本转语音、端到端模型、变分推断、随机预测、生成模型。相关实验显示本方法表现优于其他公开数据集上的最佳 TTS 系统，并能达到类似于真实语音自然度的效果。

Jun, 2021

为语音生成与转换学习潜在表征

使用变分自编码器实现了对自然语音生成过程的建模与学习，获得了较大突破。利用学习的潜在空间算术操作，实现了对语音的音素内容或说话人身份的无监督修改，无需平行监控数据。

Apr, 2017

深度编码器 - 解码器模型用于无监督学习可控语音合成

本文针对非文字语音变化很少被注释的情况，研究了无监督学习控制统计语音合成的方法，包括将无监督训练试探法解释为某些自编码器模型中的变分推理等方式。研究发现，这些新的概率诠释具有重要含义，并将几种方法应用于情感语音合成的音频建模，发现无监督学习的表达控制方法（无需情感标签）在很多方面可以与之前的最佳监督方案匹配或超越之。

Jul, 2018

基于 Transformer 的条件变分自编码器用于可控的故事生成

本文提出了一种基于转换器和变分自动编码器（VAE）的条件变分自动编码器（CVAE）方法，在保持卓越的生成效果的同时增强了可控性和表征学习能力，实现了对长文本的神经故事生成。

Jan, 2021