FloWaveNet:用于原始音频的生成流
本文介绍了一种小型的 WaveFlow 产生式流,可以训练原始音频并合成高保真语音,只需几个步骤即可生成成千上万个时间步长的波形,并具有比 WaveGlow 小 15 倍的参数和 42.6 倍的音频合成速度。
Dec, 2019
该研究介绍了 WaveNet,一种用于生成原始音频波形的深度神经网络,该模型是完全概率的和自回归的,应用于文本到语音,产生了最先进的性能,用于模拟音乐,生成新颖且高度逼真的音乐片段,并可作为一种判别模型返回有希望的语素识别结果。
Sep, 2016
本文提出了一种新的并行波形生成的解决方案,使用自回归 WaveNet 通过最小化高峰输出分布之间的 KL 散度的正则化来辨别来自自回归 WaveNet 的高斯逆自回归流。此外,我们还介绍了一种全卷积的文本到波形神经架构,能够从头开始进行快速端到端培训,极大地优于以前的流程。
Jul, 2018
采用概率密度蒸馏技术,从 WaveNet 模型中训练一个并行前向网络,实现语音样本的超过 20 倍实时生成速度,目前已部署在 Google 助手中支持多种不同英文和日语语音。
Nov, 2017
本文提出了 WaveGlow,这是一种基于流的网络,能够从 mel - 频谱生成高质量的语音,它基于 Glow 和 WaveNet 的理解,提供了快速、高效和高质量的音频合成,无需自回归,并使用单一的成本函数进行训练。我们的 PyTorch 实现在 NVIDIA V100 GPU 上以超过 500 千赫的速率产生音频样本,并具有与最佳公开可用的 WaveNet 实现一样好的音质,所有代码都将在网上公开发布。
Oct, 2018
本文开发了第一个加速器架构 FastWave 用于自回归卷积神经网络,实现了针对 WaveNet 的快速推理模型,通过优化和并行设计,FPGA 实现的 WaveNet 相较于 CPU 和 GPU 实现具有更高的生成速度和资源利用率。
Feb, 2020
本研究描述了一种序列到序列的神经网络,可以直接将文本输入转化为语音波形,具备较快的语音生成速度,而且不需要使用中间特征来实现。该模型使用自回归解码器循环与标准化流相结合,对输出波形进行建模,并能够处理长期依赖关系。实验证明,所提出的模型的语音生成质量接近最新的神经网络 TTS 系统,并具有明显的加速优势。
Nov, 2020
本文提出了一种新型的声波生成方法,名为 Parallel WaveGAN,采用生成对抗网络作为模型,通过优化多分辨率的频谱图和对抗损失函数来训练非自回归 WaveNet,可以很好地捕捉现实语音信号的时频分布,在不需要常规师生框架中的密度蒸馏的情况下,整个模型容易训练且生成的语音高保真,适用于 Transformer-based 文本转语音框架 且与最佳的基于蒸馏的 Parallel WaveNet 系统相媲美。
Oct, 2019
提出了一种不需要自回归或逆自回归的神经源 - 滤波器 (NSF) 波形建模框架,该框架比 WaveNet 等传统自回归模型具有更快的波形生成速度,并且所生成的合成语音质量至少与 WaveNet 相当。
Apr, 2019
本文提出了一种名为 WaveNODE 的新型生成模型,用于语音合成,并通过连续归一化流来实现。WaveNODE 不需要学生网络或辅助损失项,具有更灵活和复杂的函数,并可以最大化似然性,从而实现可比较的性能。
Jun, 2020