FastSpeech 2: 快速高質量的端到端文本轉語音

ICLRJun, 2020

FastSpeech 2: 快速高質量的端到端文本轉語音

FastSpeech 2: Fast and High-Quality End-to-End Text to Speech

Yi Ren, Chenxu Hu, Xu Tan, Tao Qin, Sheng Zhao...

TL;DR提出了 FastSpeech 2，直接使用语音波形从文本中生成语音，并且通过使用更多的变化信息作为条件输入，解决了非自回归文本到语音模型中的一对多映射问题，从而实现更高的语音质量。

Abstract

Non-autoregressive text to speech (TTS) models such as fastspeech can synthesize speech significantly faster than previous autoregressive models with comparable quality. The training of fastspeech model relies on

non-autoregressive text to speech models fastspeech voice quality one-to-many mapping problem ground-truth target

发现论文，激发创造

FastSpeech: 快速、健壮、可控的文本到语音

本研究提出了一种基于 Transformer 模型、并行生成梅尔频谱的快速语音合成模型 FastSpeech，它在语音质量、稳定性、可控性和速度方面均具备相应优点。

May, 2019

FastLTS: 无自回归端到端无约束唇语到语音合成

提出了一种基于 transformer 的视觉前端的快速非自回归模型 FastLTS，可以从任意姿态和词汇的肢体语言视频中进行高质量音频合成，比当前的自回归模型在 3 秒输入序列上实现了 19.76 倍的速度提升，并获得了更好的音频质量。

Jul, 2022

TTS-by-TTS: 基于 TTS 的数据增强技术，实现快速高质量语音合成

本文提出了一种基于 TTS 的数据增强方法，用于改进非自回归 TTS 系统的质量，实验表明该方法显著提高了非自回归 TTS 系统的质量。

Oct, 2020

通过建模残差多模态实现鲁棒的 FastSpeech 2

本篇论文通过引入 TVC-GMM，一种 Trivariate-Chain 高斯分布的混合模型，将过度平滑的 mel-spectrogram 有条件解码器进行建模，从而改善表达数据集中的音频质量。

Jun, 2023

高保真度语音合成的最小监督方法：全部使用扩散模型

我们提出了一种基于扩散模型的最小监督高保真语音合成方法，其中所有模块均基于扩散模型构建，非自回归框架增强了可控性，持续时间扩散模型实现了多样化的韵律表达。

Sep, 2023

FastPitch：具有音高预测的并行语音合成

FastPitch 是一种基于基频轮廓的全并行文本到语音模型，可以预测音高轮廓并生成更具表现力的语音，同时保留着便利的 Transformer 架构，具备很高的速度和语音合成质量。

Jun, 2020

LightSpeech: 基于神经架构搜索的轻量级快速语音合成

本文提出了一种名为 LightSpeech 的 TTS 模型，该模型通过利用神经架构搜索自动设计出轻量级的、高效的模型，并在不损失语音质量的情况下，将模型压缩率提高了 15 倍、推断速度提高了 6.5 倍。

Feb, 2021

PortaSpeech: 便携式高质量生成式语音合成

提出了一种轻量级的生成式文本到语音（text-to-speech）模型 PortaSpeech，提高了合成语音的真实性和抗扰动性，并且在主观和客观的评估指标上表现最佳，其模型参数数目仅为 FastSpeech 2 的四分之一。

Sep, 2021

并行 Tacotron 2: 一种具有可微分时长建模的非自回归神经 TTS 模型

本文介绍了 Parallel Tacotron 2，这是一种具有完全可区分持续时间模型的非自回归神经文本转语音模型，该模型不需要受监督的持续时间信号，它的持续时间控制能力得到了证明，并且在多种多人评估中，其主观自然性超越了基线。

Mar, 2021

Seq2Seq 模型的深度语音合成系统

本研究介绍对 Seq2seq 架构的修改，以提高神经网络基础的文本到语音 / 语音合成流程的训练速度和模型的性能，同时保证合成语音的音质。

Mar, 2019