表达性端到端语音合成中变分嵌入容量的有效使用

ICLRJun, 2019

表达性端到端语音合成中变分嵌入容量的有效使用

Effective Use of Variational Embedding Capacity in Expressive End-to-End Speech Synthesis

Eric Battenberg, Soroosh Mariooryad, Daisy Stanton, RJ Skerry-Ryan, Matt Shannon...

TL;DR本文提出了一种关于语音潜变量模型的新的分析方法 —— 容量嵌入法，并通过实验验证了该方法的有效性，进而探究其在高精度韵律、风格转换和多说话人情况下的应用。

Abstract

Recent work has explored sequence-to-sequence latent variable models for expressive speech synthesis (supporting control and transfer of prosody and style), but has not presented a coherent framework for understanding the trade-offs between the competing methods. In this paper, we prop

latent variable models embedding capacity prosody transfer style transfer multi-speaker models

发现论文，激发创造

超越准确性：评估嵌入表示能力以保持结构和上下文信息

通过结合分类、聚类和 t-SNE 基于邻近性分析的评估方法以及优化技术（如贝叶斯优化）来量化嵌入式数据在捕捉结构和上下文信息方面的有效性，本文旨在提出一种衡量嵌入式数据表现能力的方法，从而为研究者和实践者选择适用的嵌入式模型提供数据支持和辅助决策。

Sep, 2023

神经变分推理用于知识图嵌入的不确定性估计

该论文介绍了一种高度可扩展的概率框架，利用神经变分推理构建条件推理网络，针对知识图谱中实体和关系类型的符号表示提供变分分布。通过该框架构建了两个模型，即 Latent Information 和 Latent Fact 模型，这些模型在特定条件下改进了基线性能。

Jun, 2019

为语音生成与转换学习潜在表征

使用变分自编码器实现了对自然语音生成过程的建模与学习，获得了较大突破。利用学习的潜在空间算术操作，实现了对语音的音素内容或说话人身份的无监督修改，无需平行监控数据。

Apr, 2017

通过预测基于标记的声学潜变量学习话语级表示以用于情感语音合成

本论文提出了一种表达性语音合成模型，该模型利用标记级别的潜在韵律变量来捕捉和控制话语级别属性，如角色配音和说话风格，其中的潜在细节级别空间同时也捕捉更粗粒度的信息。

Nov, 2022

可解释语音合成的全层次精细韵律建模

本文提出了一种基于 Tacotron 2 的分层、细粒度和可解释的潜变量模型，实现了 prosody 的多分辨率建模，并使用有条件的 VAE 结构对所有潜在维度进行分层约束，提升了模型的可解释性和分离性能。

Feb, 2020

对话生成中改进变分编码器 - 解码器

本文通过将训练步骤分为两个阶段来解决 KL - 消失问题，采用多层感知器对高斯噪声进行变换来对潜在变量进行采样，从而实现更灵活的分布，实验结果表明，我们的模型在度量和人类评估方面都有大幅度提高。

Feb, 2018

联合变分生成增强口语理解数据

本文提出了一种新的生成架构，旨在借助潜在变量模型的生成能力来共同合成完全注释的话语，并经过实验验证，通过人工合成数据集来训练 SLU 模型，在不同数据集和模型中获得了性能提升。

Sep, 2018

用于多样图片字幕中目的建模的连续潜在空间

通过 Seq-CVAE 模型，学习每一个单词位置的潜在空间，并仿照一个将来总结的表示来鼓励这个时间上的潜在空间捕捉如何完成句子的 “意图”，并在 MSCOCO 数据集上表现出了显著的多样性改进指标，同时在句子质量方面达到了同等水平。

Aug, 2019

预先训练文本到语音模型的潜在空间改变研究，以提高表现力

深入探讨了在 Text-to-Speech（TTS）模型中通过在冻结的预训练模型中增加以联合语义音频 / 文本嵌入为条件的扩散模型来增强表达能力控制的挑战。论文识别了使用基于 VAE 的 TTS 模型时遇到的挑战，并评估了用于改变潜在语音特征的不同图像到图像方法。我们的结果为向 TTS 系统添加表达能力控制的复杂性提供了有价值的见解，并为未来研究开拓了新的方向。

Nov, 2023

通过音频分析控制表现性语音合成的潜空间可视化和解释

该论文研究基于深度学习的文字转语音技术，着重关注控制表现力的研究，探讨不同潜在变量对语音表现力的影响，以期构建可控的语音合成系统。

Mar, 2019