预先训练文本到语音模型的潜在空间改变研究，以提高表现力

Nov, 2023

预先训练文本到语音模型的潜在空间改变研究，以提高表现力

A Study on Altering the Latent Space of Pretrained Text to Speech Models for Improved Expressiveness

Mathias Vogel

TL;DR深入探讨了在 Text-to-Speech（TTS）模型中通过在冻结的预训练模型中增加以联合语义音频 / 文本嵌入为条件的扩散模型来增强表达能力控制的挑战。论文识别了使用基于 VAE 的 TTS 模型时遇到的挑战，并评估了用于改变潜在语音特征的不同图像到图像方法。我们的结果为向 TTS 系统添加表达能力控制的复杂性提供了有价值的见解，并为未来研究开拓了新的方向。

Abstract

This report explores the challenge of enhancing expressiveness control in Text-to-Speech (TTS) models by augmenting a frozen pretrained model with a diffusion model that is conditioned on joint →

expressiveness control tts models semantic audio/text embeddings diffusion model latent speech features

发现论文，激发创造

基于扩散的文本转语音模型的语义潜空间

在语音合成领域中，噪声扩散模型（Denoising Diffusion Models，DDMs）的整合应用日益增多。尽管其音频质量出色，但其语义能力的程度未知，并且控制其合成语音的音色属性仍然具有挑战性。受到图像合成的最新进展的启发，我们探索了冻结 TTS 模型的潜在空间，该空间由 DDM 的降噪器的潜在瓶颈激活组成。我们发现这个空间包含丰富的语义信息，并提出了一些新方法来在其中找到语义方向，包括有监督和无监督的方法。然后，我们演示了如何利用这些方法进行即插即用的音频编辑，无需进一步训练、架构更改或数据要求。我们提供了编辑音频的语义和声学质量的证据，并提供了补充样本：[链接]。

Feb, 2024

通过音频分析控制表现性语音合成的潜空间可视化和解释

该论文研究基于深度学习的文字转语音技术，着重关注控制表现力的研究，探讨不同潜在变量对语音表现力的影响，以期构建可控的语音合成系统。

Mar, 2019

DiffVoice: 基于潜在扩散的文本到语音

本文提出 DiffVoice，一种基于潜在扩散的文本转语音模型。在 LJSpeech 和 LibriTTS 数据集上的主观评价表明，我们的方法在自然度方面优于当前公开可用的最佳系统，并且通过采用最近的生成逆问题解决算法，DiffVoice 在基于文本的语音编辑和零样本适应方面实现了最先进的性能。

Apr, 2023

基于条件扩散模型和语言模型的最小监督语音合成：语义编码的比较研究

通过结合两种离散语音表示形式并使用两个序列到序列任务解耦合 TTS，最近在对可以以最低限度的监督进行训练的 TTS 方法中产生了越来越大的兴趣。我们提出了 Diff-LM-Speech，它在扩散模型的基础上将语义嵌入建模为基于 mel-spectrogram，并引入了基于变分自动编码器和韵律瓶颈的提示编码结构，以提高提示表示能力。我们还提出了 Tetra-Diff-Speech，通过设计一个持续时间扩散模型来实现多样化的韵律表达。同时，我们提出了 Tri-Diff-Speech 来验证语义编码的必要性。实验结果表明，我们的方法优于基准方法。我们提供了一个包含音频样本的网站。

Jul, 2023

带有对抗学习的条件变分自编码器用于端到端的文本转语音

本篇论文提出了一种使用正则化流和对抗式训练改进的变分推断的并行端到端的语音合成方法，还引入了基于随机预测的语音节奏模型来解决单一文本多样合成的问题。主题涉及文本转语音、端到端模型、变分推断、随机预测、生成模型。相关实验显示本方法表现优于其他公开数据集上的最佳 TTS 系统，并能达到类似于真实语音自然度的效果。

Jun, 2021

NaturalSpeech 2: 潜在扩散模型是自然且零 - shot 的语音和歌唱合成器

本研究提出了一种利用神经音频编解码器和扩散模型生成取定潜向量的文本转语音系统，同时设计了自然语音提示机制以促进扩散模型和时域 / 频域预测器的上下文学习，能够实现不同说话人以及多样化合成的语音转换。实验表明，在零样本情况下，与之前的 TTS 系统相比，本系统在语调、音色相似度、鲁棒性和音质方面都有显著的提高，并能通过只提供语音提示来实现新的零样本歌唱合成。

Apr, 2023

AudioToken：基于文本条件扩散模型的音频到图像生成适应性

本论文提出了一种新方法，利用文本 - 图像生成中训练的潜在扩散模型，生成基于音频记录的图像。该方法使用预训练的音频编码模型将音频编码成新令牌，这可以被视为音频和文本表示之间的自适应层。结果表明，相较于基准方法，该方法在客观和主观度量方面表现优异。

May, 2023

Make-An-Audio 2：时间增强的文本转音频生成

该论文提出了基于潜在扩散的 T2A 方法 ——Make-an-Audio 2，通过使用预训练的大型语言模型，设计了一些技术来提高语义一致性和时间一致性，并利用 LLMs 将大量音频标签数据变成音频 - 文本数据集。实验证明，该方法在客观指标和主观指标上均优于基线模型，并在时间信息理解、语义一致性和音质方面取得了显著进展。

May, 2023

探索转移学习用于低资源情感合成语音

本文研究了如何通过微调预训练的基于深度学习的文字转语音模型来使用其他说话者的少量数据合成语音，并探讨了通过微调中性 TTS 模型以使用少量情感数据来适应模型以生成情感 TTS 的可能性。

Jan, 2019

多条件扩散模型的音频生成

我们提出了一种新的模型，通过包含额外条件（时间戳、语调曲线和能量曲线）作为文本的补充，增强了现有预训练文本转音频模型的可控性，实现了对生成音频的时间顺序、音高和能量的精细控制。通过使用可训练的控制条件编码器和可训练的融合网络，在保持预训练文本转音频模型权重不变的同时，将额外条件编码和融合。由于缺乏合适的数据集和评估指标，我们将现有数据集整合成一个包含音频和相应条件的新数据集，并使用一系列评估指标来评估可控性能。实验结果表明，我们的模型成功实现了细粒度控制，实现了可控的音频生成。音频样本和我们的数据集可在此 https URL 获取。

Aug, 2023