本文提出了 FloWaveNet,一种基于可逆流的生成模型,使用单阶段训练程序和单个最大似然损失函数,无需附加的辅助项,能实时高效地输出与先前两阶段并行模型相媲美的清晰音频
Nov, 2018
本文提出了 WaveGlow,这是一种基于流的网络,能够从 mel - 频谱生成高质量的语音,它基于 Glow 和 WaveNet 的理解,提供了快速、高效和高质量的音频合成,无需自回归,并使用单一的成本函数进行训练。我们的 PyTorch 实现在 NVIDIA V100 GPU 上以超过 500 千赫的速率产生音频样本,并具有与最佳公开可用的 WaveNet 实现一样好的音质,所有代码都将在网上公开发布。
Oct, 2018
该研究介绍了 WaveNet,一种用于生成原始音频波形的深度神经网络,该模型是完全概率的和自回归的,应用于文本到语音,产生了最先进的性能,用于模拟音乐,生成新颖且高度逼真的音乐片段,并可作为一种判别模型返回有希望的语素识别结果。
Sep, 2016
RFWave 是一种新颖的多频带矫正流方法,通过 Mel 频谱图重构高保真音频波形,具有 10 个采样步骤,可实现异常的重构质量和卓越的计算效率,速度快于实时 90 倍。
Mar, 2024
本文介绍了 DiffWave,这是一种用于条件和非条件波形生成的多功能扩散概率模型。该模型高效地通过 Markov 链将白噪声信号转化为结构化波形,并通过特定的数据似然变分界限进行优化训练。DiffWave 在各种波形生成任务中均能生成高保真度音频,并在音频质量方面显著优于其他自回归和 GAN-based 波形模型。
Sep, 2020
本文介绍了基于小波变换的多尺度归一化流 Wavelet Flow,它具有低分辨率信号的显式表示和高分辨率信号的条件生成等多个优点,并在比特 / 维度标准测试中表现出与以前的归一化流相媲美的性能。
Oct, 2020
本文开发了第一个加速器架构 FastWave 用于自回归卷积神经网络,实现了针对 WaveNet 的快速推理模型,通过优化和并行设计,FPGA 实现的 WaveNet 相较于 CPU 和 GPU 实现具有更高的生成速度和资源利用率。
Feb, 2020
提出了一种不需要自回归或逆自回归的神经源 - 滤波器 (NSF) 波形建模框架,该框架比 WaveNet 等传统自回归模型具有更快的波形生成速度,并且所生成的合成语音质量至少与 WaveNet 相当。
Apr, 2019
该研究提出了一种非自回归神经源滤波波形模型,它可以直接使用基于光谱的训练准则和随机梯度下降方法进行训练,并生成至少比 AR WaveNet 快 100 倍的波形,生成的合成语音质量与 AR WaveNet 的语音生成质量接近,其中正弦波激励信号和基于光谱的训练准则对该模型的表现均至关重要。
本研究描述了一种序列到序列的神经网络,可以直接将文本输入转化为语音波形,具备较快的语音生成速度,而且不需要使用中间特征来实现。该模型使用自回归解码器循环与标准化流相结合,对输出波形进行建模,并能够处理长期依赖关系。实验证明,所提出的模型的语音生成质量接近最新的神经网络 TTS 系统,并具有明显的加速优势。
Nov, 2020