跨语句条件化变分自编码器的语音生成

Sep, 2023

跨语句条件化变分自编码器的语音生成

Cross-Utterance Conditioned VAE for Speech Generation

Yang Li, Cheng Yu, Guangzhi Sun, Weiqin Zu, Zheng Tian...

TL;DR利用神经网络驱动的语音合成系统解决了表达性语音和无缝编辑的问题，通过 Cross-Utterance Conditioned Variational Autoencoder speech synthesis (CUC-VAE S2) 框架提供了上下文敏感的韵律特征生成和模拟人类语音韵律生成的实现方式，并在文本转语音和语音编辑两个方面提出了实用的算法，实验证明这些模型显著提升了语音合成和编辑的效果。

Abstract

speech synthesis systems powered by neural networks hold promise for multimedia production, but frequently face issues with producing expressive speech and seamless editing. In response, we present the Cross-Utte

speech synthesis neural networks prosody variational autoencoder speech editing

发现论文，激发创造

跨语句有条件变分自编码器用于非自回归式文本到语音

本文提出了一种跨话语 CUC-VAE 模型来估计每个音素的潜在韵律特征的后验概率分布，该模型结合语音，说话人信息和文本特征，并允许与上下文相关的生成韵律特征，实验结果表明此模型可以显著提高其自然度和韵律分布。

May, 2022

UTTS：基于条件去耦合序列变分自编码器的无监督语音合成

本文提出了一种新的无监督文本到语音（UTTS）框架，支持零样本语音克隆和高自然度、可理解度语音合成，是从分离的语音表示学习的角度开发的多说话人语音合成器，其利用了最近在自监督语音表示学习和语音合成前端技术方面的先进进展，在训练期间提供了条件分离的时序变分自编码器（C-DSVAE）作为骨干 UTTS AM。

Jun, 2022

通过变分自编码器对表情进行建模的表达性语音合成

本文提出一种将自回归语音合成模型 VoiceLoop 与变分自编码器 VAE 相结合的方法，通过在语音生成过程中显式建模全局特征，控制生成语音的表达方式从而提高语音合成的表现力。

Apr, 2018

提升变分个性化和移情对话代理的上下文连贯性

通过引入 Uncertainty Aware CVAE 框架来近似和整合响应生成过程中的 aleatoric 不确定性，改善个性化和移情式对话生成中生成响应的上下文连贯性。同时，研究者们提出了一种新的自动度量方法来衡量生成响应的上下文连贯性，并且该度量与人类的判断显著相关。

Feb, 2022

基于 Transformer 的有条件变分自编码器对话生成

该论文介绍了一种新的 CVAE-T 对话模型，基于 Transformer 的结构，通过训练包含正负样本的数据并引入正则化项，可以在生成回复时提高信息量。

Oct, 2022

利用跨句 BERT Embeddings 改进韵律建模实现端到端语音合成

提出了一种使用上下文信息和 BERT 嵌入的文本表征来在端到端的方式中进行语调生成，实验表明这种方法可以显著提高合成语音的自然度和表现力，并可以通过更改相邻的句子间接地控制语调。

Nov, 2020

利用自分离条件变分自编码器生成相关和连贯的对话回应

通过引入自身分离的条件变分自编码器（SepaCVAE），将组信息引入到规范化的潜变量中，进一步增强了 CVAE 通过提高响应的相关性和连贯性同时保持它们的多样性和信息量在开放领域对话生成任务中的性能。

Jun, 2021

基于变分自编码器的跨域特征语音转换

本文为了更好地用变分自编码器 (VAE) 进行语音转化，提出了一种名为 CDVAE 的新颖框架，该框架将多种光谱特征（如 STRAIGHT 光谱和 MCC）用于无监督学习，实现了对编码器和解码器行为的设计。结果显示，该框架在主观测试中的表现优于传统的 VAE 框架。

Aug, 2018

预训练和插接：基于变分自编码器的灵活条件文本生成

本文介绍一种新的名为 PPVAE 的框架，用于灵活的条件文本生成。PPVAE 将文本生成模块与条件表示模块解耦，以允许 “一对多” 条件生成，并且对于新出现的条件，只需要训练轻量级网络并作为 PPVAE 的插件，这对于实际应用非常有效和理想。广泛的实验表明，PPVAE 比现有的其他技术具有更好的条件性和多样性，但需要更少的训练工作量。

Nov, 2019

高级条件变分自编码器（A-CVAE）：通过解离潜在特征表示进行开放领域对话生成解释的探索

本研究旨在通过介绍一种认知方法，利用先前的知识驱动生成模型，实现在中尺度特征分离中调节潜在变量，使得深度学习的开放领域对话系统可以生成更高质量和更可解释性的对话。

Jul, 2022