通过音频分析控制表现性语音合成的潜空间可视化和解释

Mar, 2019

通过音频分析控制表现性语音合成的潜空间可视化和解释

Visualization and Interpretation of Latent Spaces for Controlling Expressive Speech Synthesis through Audio Analysis

Noé Tits, Fengna Wang, Kevin El Haddad, Vincent Pagel, Thierry Dutoit

TL;DR该论文研究基于深度学习的文字转语音技术，着重关注控制表现力的研究，探讨不同潜在变量对语音表现力的影响，以期构建可控的语音合成系统。

Abstract

The field of text-to-speech has experienced huge improvements last years benefiting from deep learning techniques. Producing realistic speech becomes possible now. As a consequence, the research on the control of

text-to-speech deep learning expressiveness control latent variables speech synthesis

发现论文，激发创造

预先训练文本到语音模型的潜在空间改变研究，以提高表现力

深入探讨了在 Text-to-Speech（TTS）模型中通过在冻结的预训练模型中增加以联合语义音频 / 文本嵌入为条件的扩散模型来增强表达能力控制的挑战。论文识别了使用基于 VAE 的 TTS 模型时遇到的挑战，并评估了用于改变潜在语音特征的不同图像到图像方法。我们的结果为向 TTS 系统添加表达能力控制的复杂性提供了有价值的见解，并为未来研究开拓了新的方向。

Nov, 2023

通过预测基于标记的声学潜变量学习话语级表示以用于情感语音合成

本论文提出了一种表达性语音合成模型，该模型利用标记级别的潜在韵律变量来捕捉和控制话语级别属性，如角色配音和说话风格，其中的潜在细节级别空间同时也捕捉更粗粒度的信息。

Nov, 2022

通过连续变异因素控制生成模型

本文提出了一种新的方法，通过找到生成模型中有意义的方向来提高生成模型潜在空间的可解释性，从而精确地控制生成图像的特定属性，如位置或比例。该方法对于搜索编码生成图像的简单变换方向（如平移，缩放或颜色变化）特别适用，并在 GAN 和变分自动编码器模型的质量和量化方面得到了证明。

Jan, 2020

基于扩散的文本转语音模型的语义潜空间

在语音合成领域中，噪声扩散模型（Denoising Diffusion Models，DDMs）的整合应用日益增多。尽管其音频质量出色，但其语义能力的程度未知，并且控制其合成语音的音色属性仍然具有挑战性。受到图像合成的最新进展的启发，我们探索了冻结 TTS 模型的潜在空间，该空间由 DDM 的降噪器的潜在瓶颈激活组成。我们发现这个空间包含丰富的语义信息，并提出了一些新方法来在其中找到语义方向，包括有监督和无监督的方法。然后，我们演示了如何利用这些方法进行即插即用的音频编辑，无需进一步训练、架构更改或数据要求。我们提供了编辑音频的语义和声学质量的证据，并提供了补充样本：[链接]。

Feb, 2024

半监督生成建模用于可控语音合成

本文提出一种新颖的生成模型，它将最先进的神经文本到语音技术和半监督概率潜变量模型相结合。通过对某些潜变量进行部分监督，我们能够强制它们具有一致和可解释的特征，这在纯无监督的文本到语音模型中过去是不可能的。我们证明了我们的模型能够可靠地发现和控制语音的重要属性（例如情感和语速），即使只监督 1％（30 分钟）。在这样低的监督水平下，我们观察不到合成质量与最先进的基线水平相比的下降。

Oct, 2019

为语音生成与转换学习潜在表征

使用变分自编码器实现了对自然语音生成过程的建模与学习，获得了较大突破。利用学习的潜在空间算术操作，实现了对语音的音素内容或说话人身份的无监督修改，无需平行监控数据。

Apr, 2017

通过操作语音风格潜在因素进行跨说话人情感转移

本文提出一种基于潜在风格空间中的矢量算术方法的跨说话人情感转移和操纵研究，可以使用仅有的几个标记样本从阅读风格语音生成情感语音，并且情感强度可以轻松控制，保留了说话人的身份。实验结果表明这种方法在表达性、自然度和可控性方面具有优越性。

Mar, 2023

通过概率密度估计在潜空间中实现可控文本生成

文章介绍了一种新的控制框架来实现可控文本生成，并利用概率密度估计在隐藏空间中进行控制，该方法使用可逆变换函数，即 Normalizing Flow，将潜在空间中的复杂分布映射到先验空间中的简单高斯分布，实现了前向控制和反馈控制效果，达到了目前最好的效果。

Dec, 2022

深度编码器 - 解码器模型用于无监督学习可控语音合成

本文针对非文字语音变化很少被注释的情况，研究了无监督学习控制统计语音合成的方法，包括将无监督训练试探法解释为某些自编码器模型中的变分推理等方式。研究发现，这些新的概率诠释具有重要含义，并将几种方法应用于情感语音合成的音频建模，发现无监督学习的表达控制方法（无需情感标签）在很多方面可以与之前的最佳监督方案匹配或超越之。

Jul, 2018

使用深度学习架构进行潜在音频空间探索的声音设计策略

本研究探讨了 Variational Autoencoders（VAEs）在将原始音频数据中生成潜在音频空间时的应用，提出了三种探索潜在音频空间和音色的策略以应用于声音设计，在为声音和音乐实践中利用潜在音频空间的艺术方法和策略方面开展了初步探索。

May, 2023