端到端语音合成中学习风格控制与转移的潜在表示

Dec, 2018

端到端语音合成中学习风格控制与转移的潜在表示

Learning latent representations for style control and transfer in end-to-end speech synthesis

Ya-Jie Zhang, Shifeng Pan, Lei He, Zhen-Hua Ling

TL;DR本文介绍了利用变分自编码器（VAE）来实现语音合成模型的端到端学习，以无监督的方式学习发音风格的潜在表示。通过 VAE 学习到的风格表示具有解缠、缩放和组合等良好的特性，使得风格控制变得容易。通过先通过 VAE 的识别网络推断出风格表示，然后将其馈入 TTS 网络来引导语音合成中的风格，可以在这个框架中实现风格转移。为了避免在训练过程中 KL 散度崩溃，采用了多种技术。最后，所提出的模型在风格控制上表现良好，并在风格转移的 ABX 偏好测试中优于全局风格令牌（GST）模型。

Abstract

In this paper, we introduce the variational autoencoder (VAE) to an end-to-end speech synthesis model, to learn the latent representation

variational autoencoder speech synthesis latent representation style control kl divergence

发现论文，激发创造

通过变分自编码器对表情进行建模的表达性语音合成

本文提出一种将自回归语音合成模型 VoiceLoop 与变分自编码器 VAE 相结合的方法，通过在语音生成过程中显式建模全局特征，控制生成语音的表达方式从而提高语音合成的表现力。

Apr, 2018

为语音生成与转换学习潜在表征

使用变分自编码器实现了对自然语音生成过程的建模与学习，获得了较大突破。利用学习的潜在空间算术操作，实现了对语音的音素内容或说话人身份的无监督修改，无需平行监控数据。

Apr, 2017

StyleSpeech：基于 VQ-VAE 的自监督风格增强与情感化有声书语音合成预训练

通过 VQ-VAE 的自监督式预训练，我们提出了一种自我监督式风格增强方法，用于表达性有声读物语音合成，实验证明我们的方法能够有效地提高有声读物合成中合成语音的自然度和表现力。

Dec, 2023

基于言语风格潜在表示的端到端文本转语音技术：基于自然对话的研究

本研究旨在实现一种接近于人类对话的 TTS，通过基于 VAE/GMVAE-VITS 的训练，利用上下文信息来综合预测所需样式的语音合成，实验结果表明，该方法在对话级别的自然度方面优于原本的 VITS。

Jun, 2022

变分自编码器用于学习语音情感的潜在表示：初步研究

该研究提出对于语音情感识别任务，在深度生成模型 VAE 的启发下，使用 VAEs 学习语音信号的潜在表征，并使用这种表征来分类情感，证明通过 VAEs 学习到的特征可产生情感分类的最佳结果。

Dec, 2017

AUTOVC: 仅基于自动编码器损失的零样本语音风格转换

本文提出了一种新的艺术风格转换方案，它仅涉及一个带有仔细设计的瓶颈的自编码器，通过仅通过自重构损失进行训练，我们形式证明这种方案可以实现分布匹配的风格转换。我们基于此方案提出了 AUTOVC，并在非平行数据的多对多语音转换中实现了最先进的结果，这是首次进行零样本语音转换。

May, 2019

从 A 到 Z: 深度神经网络生成器的监督式风格和内容转移

提出了一种新的神经网络结构来解决单张图像类比的问题，我们的网络是一个修改后的变分自编码器（VAE），支持有监督的训练和结构相似性目标的输出评估，通过对于 62 个字体从单个样例字母的生成展示出比现有技术更优异的结果。

Mar, 2016

无标签风格迁移：量化 VAE 和基于发言人的归一化在语音合成中的跨说话人风格转换

本研究提出了一种基于 Q-VAE 和批归一化以及数据增强的跨说话人语音风格转移方法，无需使用手动标注的标签即可实现从源说话人到目标说话人的风格迁移，并证明了该方法优于基准方法。

Dec, 2022

可解释的句子表示：变分自编码器和注意力机制

提出使用变分自编码器和 Transformers 构建两种具有归纳偏置的模型，可将潜在表示中的信息分离成可理解的概念，其中 QKVAE 在转移实验中表现出竞争性能，并展示了明显的优化句法角色分离能力。

May, 2023

深度编码器 - 解码器模型用于无监督学习可控语音合成

本文针对非文字语音变化很少被注释的情况，研究了无监督学习控制统计语音合成的方法，包括将无监督训练试探法解释为某些自编码器模型中的变分推理等方式。研究发现，这些新的概率诠释具有重要含义，并将几种方法应用于情感语音合成的音频建模，发现无监督学习的表达控制方法（无需情感标签）在很多方面可以与之前的最佳监督方案匹配或超越之。

Jul, 2018