带有对抗学习的条件变分自编码器用于端到端的文本转语音

ICMLJun, 2021

带有对抗学习的条件变分自编码器用于端到端的文本转语音

Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech

Jaehyeon Kim, Jungil Kong, Juhee Son

TL;DR本篇论文提出了一种使用正则化流和对抗式训练改进的变分推断的并行端到端的语音合成方法，还引入了基于随机预测的语音节奏模型来解决单一文本多样合成的问题。主题涉及文本转语音、端到端模型、变分推断、随机预测、生成模型。相关实验显示本方法表现优于其他公开数据集上的最佳 TTS 系统，并能达到类似于真实语音自然度的效果。

Abstract

Several recent end-to-end text-to-speech (TTS) models enabling single-stage training and parallel sampling have been proposed, but their sample quality does not match that of two-stage TTS systems. In this work, we present a parallel end-to-end TTS method that generates more natural so

text-to-speech end-to-end models variational inference stochastic duration predictor generative modeling

发现论文，激发创造

并行 Tacotron：非自回归且可控 TTS

本文提出了一种用于神经端到端文本到语音的非自回归神经网络模型 Parallel Tacotron，该模型采用变分自编码器来提高自然性，轻量级卷积来捕获局部上下文，并引入迭代光谱损失以进一步提高自然性，实验结果表明，Parallel Tacotron 与强的自回归基线模型相匹配，并在推理时间上显著提高了效率。

Oct, 2020

端到端对抗文本转语音

该研究提出了一种基于端到端的方式来从文本或音素中生成语音的方法，使用逐字符或逐音素音频输出序列，通过可微分的对齐策略来保证高保真度音频的生成，实现了在不需要多阶段训练和额外监督下，比之前的技术达到了相似的高质量合成音效。

Jun, 2020

基于言语风格潜在表示的端到端文本转语音技术：基于自然对话的研究

本研究旨在实现一种接近于人类对话的 TTS，通过基于 VAE/GMVAE-VITS 的训练，利用上下文信息来综合预测所需样式的语音合成，实验结果表明，该方法在对话级别的自然度方面优于原本的 VITS。

Jun, 2022

多说话人神经语音合成的多任务对抗训练算法

本研究提出了一种基于多任务对抗训练的多说话者神经语音合成模型的新型训练算法，能够提高合成语音的质量，并能够推广到未见过的说话者。

Sep, 2022

用对抗网络实现高保真度语音合成

使用条件前馈生成器和多个鉴别器组成的架构，GAN-TTS 能够生成自然度与当前最先进的模型相当，而且可以高度并行化。同时，研究者还使用了主观人类评估及新型量化指标来评估 GAN-TTS 的性能。

Sep, 2019

NaturalSpeech：端到端文本语音合成，质量达人类水平

本文提出了一种基于变分自动编码器的 TTS 系统 NaturalSpeech，通过多个关键模块提高文本先验的容量和语音后验的复杂度，同时在 LJSpeech 数据集上实验证明该系统在句子级别上达到了人类录音的 - 0.01 CMOS（比较平均意见分数），与人类录音不存在显著性差异。

May, 2022

从说话人验证到多说话人语音合成的迁移学习

描述了一个基于神经网络的文本转语音（TTS）合成系统，可以以许多不同讲话者的声音生成语音音频，该系统由三个独立训练的部分组成，包括训练说话者编码器网络进行讲话者验证任务，基于 Tacotron 2 的序列合成网络，以及将梅尔频谱图转换为时间领域波形样本的自回归 WaveNet 基声码器。

Jun, 2018

UTTS：基于条件去耦合序列变分自编码器的无监督语音合成

本文提出了一种新的无监督文本到语音（UTTS）框架，支持零样本语音克隆和高自然度、可理解度语音合成，是从分离的语音表示学习的角度开发的多说话人语音合成器，其利用了最近在自监督语音表示学习和语音合成前端技术方面的先进进展，在训练期间提供了条件分离的时序变分自编码器（C-DSVAE）作为骨干 UTTS AM。

Jun, 2022

DiscreTalk: 将文本转语音作为机器翻译问题

本文提出了一种基于神经机器翻译 (NMT) 的全自动文本语音 (E2E-TTS) 模型，该模型由非自回归向量量化变分自动编码器 (VQ-VAE) 模型和自回归 Transformer-NMT 模型两部分组成，实验结果表明，该模型在自然度方面表现优异，可与 VQ-VAE 模型的重构相媲美。

May, 2020

几乎无监督的文本转语音和自动语音识别

本文提出了一种基于 Transformer 模型的几乎无监督学习方法，结合 TTS 和 ASR 的双重特性，通过少量的配对数据和额外的未配对数据，实现了对语音和文本领域的语言建模，并在 LJSpeech 数据集上达到了 99.84% 的可懂单词率和 2.68 MOS 的 TTS 表现，以及 11.7% 的 ASR 错误率。

May, 2019