FloWaveNet：用于原始音频的生成流

ICMLNov, 2018

FloWaveNet : A Generative Flow for Raw Audio

Sungwon Kim, Sang-gil Lee, Jongyoon Song, Jaehyeon Kim, Sungroh Yoon

TL;DR本文提出了 FloWaveNet，一种基于可逆流的生成模型，使用单阶段训练程序和单个最大似然损失函数，无需附加的辅助项，能实时高效地输出与先前两阶段并行模型相媲美的清晰音频

Abstract

Most modern text-to-speech architectures use a wavenet vocoder for synthesizing high-fidelity waveform audio, but there have been limitations, such as high inference time, in its practical application due to its

text-to-speech wavenet audio synthesis generative model flow-based

发现论文，激发创造

WaveFlow: 面向原始音频的紧凑流模型

本文介绍了一种小型的 WaveFlow 产生式流，可以训练原始音频并合成高保真语音，只需几个步骤即可生成成千上万个时间步长的波形，并具有比 WaveGlow 小 15 倍的参数和 42.6 倍的音频合成速度。

Dec, 2019

WaveNet：原始音频的生成模型

该研究介绍了 WaveNet，一种用于生成原始音频波形的深度神经网络，该模型是完全概率的和自回归的，应用于文本到语音，产生了最先进的性能，用于模拟音乐，生成新颖且高度逼真的音乐片段，并可作为一种判别模型返回有希望的语素识别结果。

Sep, 2016

ClariNet: 端到端文本到语音平行波形生成

本文提出了一种新的并行波形生成的解决方案，使用自回归 WaveNet 通过最小化高峰输出分布之间的 KL 散度的正则化来辨别来自自回归 WaveNet 的高斯逆自回归流。此外，我们还介绍了一种全卷积的文本到波形神经架构，能够从头开始进行快速端到端培训，极大地优于以前的流程。

Jul, 2018

Parallel WaveNet: 快速高保真语音合成

采用概率密度蒸馏技术，从 WaveNet 模型中训练一个并行前向网络，实现语音样本的超过 20 倍实时生成速度，目前已部署在 Google 助手中支持多种不同英文和日语语音。

Nov, 2017

WaveGlow：基于流的生成网络用于语音合成

本文提出了 WaveGlow，这是一种基于流的网络，能够从 mel - 频谱生成高质量的语音，它基于 Glow 和 WaveNet 的理解，提供了快速、高效和高质量的音频合成，无需自回归，并使用单一的成本函数进行训练。我们的 PyTorch 实现在 NVIDIA V100 GPU 上以超过 500 千赫的速率产生音频样本，并具有与最佳公开可用的 WaveNet 实现一样好的音质，所有代码都将在网上公开发布。

Oct, 2018

FastWave：在 FPGA 上加速自回归卷积神经网络

本文开发了第一个加速器架构 FastWave 用于自回归卷积神经网络，实现了针对 WaveNet 的快速推理模型，通过优化和并行设计，FPGA 实现的 WaveNet 相较于 CPU 和 GPU 实现具有更高的生成速度和资源利用率。

Feb, 2020

Wave-Tacotron: 基于端到端的文本到语音合成的光谱图自由方法

本研究描述了一种序列到序列的神经网络，可以直接将文本输入转化为语音波形，具备较快的语音生成速度，而且不需要使用中间特征来实现。该模型使用自回归解码器循环与标准化流相结合，对输出波形进行建模，并能够处理长期依赖关系。实验证明，所提出的模型的语音生成质量接近最新的神经网络 TTS 系统，并具有明显的加速优势。

Nov, 2020

Parallel WaveGAN：基于多分辨率频谱图的生成对抗网络快速波形生成模型

本文提出了一种新型的声波生成方法，名为 Parallel WaveGAN，采用生成对抗网络作为模型，通过优化多分辨率的频谱图和对抗损失函数来训练非自回归 WaveNet，可以很好地捕捉现实语音信号的时频分布，在不需要常规师生框架中的密度蒸馏的情况下，整个模型容易训练且生成的语音高保真，适用于 Transformer-based 文本转语音框架且与最佳的基于蒸馏的 Parallel WaveNet 系统相媲美。

Oct, 2019

统计参数语音合成的神经源 - 滤波波形模型

提出了一种不需要自回归或逆自回归的神经源 - 滤波器 (NSF) 波形建模框架，该框架比 WaveNet 等传统自回归模型具有更快的波形生成速度，并且所生成的合成语音质量至少与 WaveNet 相当。

Apr, 2019

WaveNODE: 语音合成的连续归一化流

本文提出了一种名为 WaveNODE 的新型生成模型，用于语音合成，并通过连续归一化流来实现。WaveNODE 不需要学生网络或辅助损失项，具有更灵活和复杂的函数，并可以最大化似然性，从而实现可比较的性能。

Jun, 2020