多说话人神经语音合成的多任务对抗训练算法

Sep, 2022

多说话人神经语音合成的多任务对抗训练算法

Multi-Task Adversarial Training Algorithm for Multi-Speaker Neural Text-to-Speech

Yusuke Nakai, Yuki Saito, Kenta Udagawa, Hiroshi Saruwatari

TL;DR本研究提出了一种基于多任务对抗训练的多说话者神经语音合成模型的新型训练算法，能够提高合成语音的质量，并能够推广到未见过的说话者。

Abstract

We propose a novel training algorithm for a multi-speaker neural text-to-speech (TTS) model based on multi-task adversarial training. A conventional generative adversarial network (gan)-based training algorithm s

neural text-to-speech multi-task adversarial training gan synthetic speech unseen speakers

发现论文，激发创造

用对抗网络实现高保真度语音合成

使用条件前馈生成器和多个鉴别器组成的架构，GAN-TTS 能够生成自然度与当前最先进的模型相当，而且可以高度并行化。同时，研究者还使用了主观人类评估及新型量化指标来评估 GAN-TTS 的性能。

Sep, 2019

带有对抗学习的条件变分自编码器用于端到端的文本转语音

本篇论文提出了一种使用正则化流和对抗式训练改进的变分推断的并行端到端的语音合成方法，还引入了基于随机预测的语音节奏模型来解决单一文本多样合成的问题。主题涉及文本转语音、端到端模型、变分推断、随机预测、生成模型。相关实验显示本方法表现优于其他公开数据集上的最佳 TTS 系统，并能达到类似于真实语音自然度的效果。

Jun, 2021

从说话人验证到多说话人语音合成的迁移学习

描述了一个基于神经网络的文本转语音（TTS）合成系统，可以以许多不同讲话者的声音生成语音音频，该系统由三个独立训练的部分组成，包括训练说话者编码器网络进行讲话者验证任务，基于 Tacotron 2 的序列合成网络，以及将梅尔频谱图转换为时间领域波形样本的自回归 WaveNet 基声码器。

Jun, 2018

融合生成对抗网络的统计参数语音合成

本文介绍了一种使用生成对抗网络（GAN）的统计参数语音合成方法，相比于传统的最小生成误差训练算法，该方法能够更自然地生成语音波形，并有效缓解了生成语音参数的平滑问题。我们还研究了不同 GAN 之间的差异，并发现最小化 Earth-Mover 距离的 Wasserstein GAN 可以最大程度地提高合成语音的质量。

Sep, 2017

使用对抗性声码器加速 TTS 合成

该研究提出了一种使用生成对抗网络 (GANs) 的方法，从感知上启发的频谱图到简单的幅度谱图进行映射，以达到比现有的 TTS 系统更快的速度和更好的性能。

Apr, 2019

Multi-SpectroGAN：基于对抗式风格组合的高多样性高保真谱图生成技术，用于语音合成

这篇论文提出了一种基于生成对抗网络的多扬声器模型，可以仅基于对抗性反馈就训练出高度多样化和高保真度的语音合成，同时可以控制和混合多种口音和语气。

Dec, 2020

一种新的基于 GAN 的端到端 TTS 训练算法

本文提出了一种使用生成对抗网络和 Professor Forcing 概念训练的自回归模型，旨在减轻 TTS 中遭遇的曝光偏差问题，AB 测试结果表明该方法相较于传递学习得到了显著的 CMOS 0.1 的改进，语音测试集表现也有大幅度提升。

Apr, 2019

端到端对抗文本转语音

该研究提出了一种基于端到端的方式来从文本或音素中生成语音的方法，使用逐字符或逐音素音频输出序列，通过可微分的对齐策略来保证高保真度音频的生成，实现了在不需要多阶段训练和额外监督下，比之前的技术达到了相似的高质量合成音效。

Jun, 2020

MultiSpeech: 基于 Transformer 的多说话人文本转语音

本文提出了一种名为 MultiSpeech 的高质量多说话人变压器语音合成系统，通过几个特殊设计的组件 / 技术改善了文本到语音的对齐，并在多个数据集上展示了其效果。

Jun, 2020

基于原始音标输入和显式韵律建模的文本转语音合成的生成对抗训练

通过生成对抗训练的端到端语音合成系统，我们使用明确的语音、音高和时长建模来训练我们的原始音素到音频转换的 Vocoder，并通过几种预训练模型来实验上下文化和去上下文化的词嵌入，同时介绍一种基于离散风格标记的高度表达的字符声音匹配方法。

Oct, 2023