一种新的基于 GAN 的端到端 TTS 训练算法

Apr, 2019

一种新的基于 GAN 的端到端 TTS 训练算法

A New GAN-based End-to-End TTS Training Algorithm

Haohan Guo, Frank K. Soong, Lei He, Lei Xie

TL;DR本文提出了一种使用生成对抗网络和 Professor Forcing 概念训练的自回归模型，旨在减轻 TTS 中遭遇的曝光偏差问题，AB 测试结果表明该方法相较于传递学习得到了显著的 CMOS 0.1 的改进，语音测试集表现也有大幅度提升。

Abstract

End-to-end, autoregressive model-based tts has shown significant performance improvements over the conventional one. However, the autoregressive module training is affected by the →

autoregressive model exposure bias generative adversarial network professor forcing tts

发现论文，激发创造

用对抗网络实现高保真度语音合成

使用条件前馈生成器和多个鉴别器组成的架构，GAN-TTS 能够生成自然度与当前最先进的模型相当，而且可以高度并行化。同时，研究者还使用了主观人类评估及新型量化指标来评估 GAN-TTS 的性能。

Sep, 2019

多说话人神经语音合成的多任务对抗训练算法

本研究提出了一种基于多任务对抗训练的多说话者神经语音合成模型的新型训练算法，能够提高合成语音的质量，并能够推广到未见过的说话者。

Sep, 2022

TTS-GAN: 基于 Transformer 的时间序列生成对抗网络

介绍了一种基于 transformer 的生成对抗网络用于扩充时间序列的数据大小，实现了能够生成与真实数据序列类似的合成时间序列数据。

Feb, 2022

带有对抗学习的条件变分自编码器用于端到端的文本转语音

本篇论文提出了一种使用正则化流和对抗式训练改进的变分推断的并行端到端的语音合成方法，还引入了基于随机预测的语音节奏模型来解决单一文本多样合成的问题。主题涉及文本转语音、端到端模型、变分推断、随机预测、生成模型。相关实验显示本方法表现优于其他公开数据集上的最佳 TTS 系统，并能达到类似于真实语音自然度的效果。

Jun, 2021

基于 Tacotron 的 TTS 的师生训练以实现鲁棒性

本文提出了一种基于教师 - 学生训练方案的 Tacotron 文本转语音系统解决自回归模型中的曝光偏差问题，并使用知识蒸馏使学生模型学习教师模型的输出概率，取得了在中英文系统中对于域外测试数据语音质量的稳定提升。

Nov, 2019

利用生成对抗网络进行鲁棒语音识别

本文提出了一种利用生成对抗网络（GAN）优化端到端框架，实现鲁棒语音识别的方法，该方法能够使编码器具有改进的不变性，而不需要依赖于专业知识或简化假设，并通过数据驱动的方式，直接提高模型的鲁棒性，从而提高了模型的远场语音识别能力。

Nov, 2017

正反向解码用于正则化端到端 TTS

该研究提出了两种新方法以解决神经端到端 TTS 模型在挑战性测试集中表现不佳的问题，包括引入差异正则化项和双向解码器正则化，并采用联合训练策略，在提高鲁棒性和自然度方面均取得了显著的改进。

Jul, 2019

融合生成对抗网络的统计参数语音合成

本文介绍了一种使用生成对抗网络（GAN）的统计参数语音合成方法，相比于传统的最小生成误差训练算法，该方法能够更自然地生成语音波形，并有效缓解了生成语音参数的平滑问题。我们还研究了不同 GAN 之间的差异，并发现最小化 Earth-Mover 距离的 Wasserstein GAN 可以最大程度地提高合成语音的质量。

Sep, 2017

生成对抗训练可以提高神经语言模型的表现

本文提出了一种基于生成对抗网络和对抗性训练的正则化方法，可以在神经语言模型中防止过拟合，与常见的对抗性训练方法相比，本方法不需要经过时间的二次反向传播，并且其开销不超过基准方法的 20%。

Nov, 2022

无需强化学习的对抗文本生成

本文利用自编码器生成低维度语句向量空间，再用生成对抗网络利用这个空间生成真实文本，与竞争基线相比，经人工审核和 BLEU 分数表明模型可以生成逼真的文本。

Oct, 2018