通过发现主轴控制生成人工说话者嵌入

Oct, 2023

通过发现主轴控制生成人工说话者嵌入

Controllable Generation of Artificial Speaker Embeddings through Discovery of Principal Directions

Florian Lux, Pascal Tilli, Sarina Meyer, Ngoc Thang Vu

TL;DR本文提出了一种方法，可以生成人工说话者嵌入，从而提供对声音和说话风格的直观和精细控制，而不需要标签并且不会牺牲隐私。

Abstract

Customizing voice and speaking style in a speech synthesis system with intuitive and fine-grained controls is challenging, given that little data with appropriate labels is available. Furthermore, editing an existing human's voice also comes with ethical concerns. In this paper, we pro

voice synthesis system speaking style artificial speaker embeddings fine-grained control privacy

发现论文，激发创造

通过合成注释实现高保真度文本转语音的自然语言指导

通过对大规模数据集进行训练的文本到语音模型展示了令人印象深刻的语境学习能力和自然度。然而，这些模型中的说话人身份和风格的控制通常需要以参考语音录音为基础，从而限制了其创造性应用。相反，关于说话人身份和风格的自然语言提示已经展示了有希望的结果，并提供了一种直观的控制方法。然而，依赖于人工标注的描述限制了其扩展到大规模数据集的能力。我们的工作弥合了这两种方法之间的差距。我们提出了一种可扩展的方法来对说话人身份、风格和录音条件的各个方面进行标注。然后，我们将这种方法应用到一个 45k 小时的数据集上，用于训练语音语言模型。此外，我们提出了简单的方法来增加音频保真度，尽管完全依赖于现有数据，但性能显著超越了最近的工作。我们的结果展示了通过单一模型和直观的自然语言条件，实现了高保真度的语音生成，在各种口音、韵律风格、信道条件和声学条件下均表现出色。可以在此网址听到音频样本。

Feb, 2024

半监督生成建模用于可控语音合成

本文提出一种新颖的生成模型，它将最先进的神经文本到语音技术和半监督概率潜变量模型相结合。通过对某些潜变量进行部分监督，我们能够强制它们具有一致和可解释的特征，这在纯无监督的文本到语音模型中过去是不可能的。我们证明了我们的模型能够可靠地发现和控制语音的重要属性（例如情感和语速），即使只监督 1％（30 分钟）。在这样低的监督水平下，我们观察不到合成质量与最先进的基线水平相比的下降。

Oct, 2019

VoxGenesis：无监督发现语音合成的潜在说话人流形

提出了一种无监督的语音合成框架 VoxGenesis，通过探索潜在空间，发现与特定说话者特征相关的可解释方向，实现对声音的编辑，并生成更具多样性和真实性的说话者。

Mar, 2024

听、解缠与控制：可控语音驱动的说话人头像生成

提出了一种名为 SPEAK 的一次性 Talking Head Generation 框架，通过情感和姿势控制实现与一般 Talking Face Generation 的区别。该方法采用 Inter-Reconstructed Feature Disentanglement (IRFD) 方法将人脸特征解耦为三个潜在空间，并设计了一个面部编辑模块，将语音内容和面部潜在编码修改为单一的潜在空间。进一步，提出了一种新颖的生成器，利用编辑模块生成的修改后的潜在编码来调节情感表达、头部姿势和语音内容，以合成面部动画。大量实验表明，该方法可以生成具有协调的唇部运动、真实的面部情感和平滑的头部运动的逼真说话角色。

May, 2024

合成语音儿童：为何需要以及如何制造

现代人机交互（HCI）研究主要依赖于神经网络模型，而这些模型对于系统用户的机器视觉和语音理解需求。针对面向脆弱人群（如儿童）的接口开发需要大量标注的训练数据集，而 GDPR 对于数据的收集、管理和处理引入了显著的复杂性。为了满足 Edge AI 智能玩具平台的培训需求，这项研究探索了生成神经技术的最新进展，并提供了一个可控的数据生成流程的工作概念，用于面向语音驱动的面部训练数据的规模化生成。在这个背景下，我们演示了如何微调 StyleGAN2 来创建一个性别平衡的儿童面部数据集。该数据集包含多种可控因素，如面部表情、年龄变化、面部姿势，甚至包括具有逼真唇部同步的语音驱动动画。通过将生成的文本转换为语音模型用于儿童语音合成以及基于 3D 标记的说话头部流程，我们可以生成高度逼真的完全合成的儿童视频片段。这些视频片段可以提供有价值且可控的合成训练数据，以弥补由于隐私条例的限制导致真实数据稀缺或受限的差距。

Nov, 2023

深度编码器 - 解码器模型用于无监督学习可控语音合成

本文针对非文字语音变化很少被注释的情况，研究了无监督学习控制统计语音合成的方法，包括将无监督训练试探法解释为某些自编码器模型中的变分推理等方式。研究发现，这些新的概率诠释具有重要含义，并将几种方法应用于情感语音合成的音频建模，发现无监督学习的表达控制方法（无需情感标签）在很多方面可以与之前的最佳监督方案匹配或超越之。

Jul, 2018

情感演讲合成与丰富的精细控制

本论文提出了一种有效的情感控制方法，用于端到端的文本到语音（TTS）系统，使用嵌入向量表示 TTS 输入并结合了内外情感距离比算法和插值技术来提高发音的表现力和可控性。主观评估表明所提算法优于传统方法。

Nov, 2019

使用跨模态自监督进行解缠语音嵌入

本文旨在学习说话者身份的表示，利用自我监督学习目标，在视频中通过面部和音频之间的自然跨模态同步来实现。通过构建一个共享低级特征且提供自然机制来明确区分语言内容和说话者身份的双流架构，从而在大规模的 “野外” 对话者数据集上进行训练，并展示了其对于标准说话者识别性能的良好效果。

Feb, 2020

利用自然语言提示控制语音合成中的情感

我们提出了一种通过由情感丰富的文本衍生出的嵌入来作为提示信息的系统，通过在基于 Transformer 的架构内多次集成发言者和提示信息的联合表示。我们的方法在合并情感语音和文本数据集上进行训练，并在每次训练迭代中变化提示信息，以增加模型的泛化能力。客观和主观评估结果表明，该条件合成系统能够准确地将提示中的情感转移到语音中。同时，保持了发言者身份的精确可追踪性以及整体的高话语质量和可理解性。

Jun, 2024

端到端语音合成的鲁棒性和精细语调控制

该研究提出了一种利用时间结构的音调嵌入方法，实现对合成语音言语风格的精细控制，可在帧级别和音素级别改变合成语音的音高和振幅，并且通过嵌入的时间归一化得到更好的抵抗讲话风格扰动的鲁棒性。

Nov, 2018