WOLONet: 面向高效和高保真度语音合成的 Wave Outlooker
提议在语音合成中使用包含条件生成式对抗网络或其变种 Wasserstein GAN with gradient penalty (WGAN-GP) 的框架,并将生成的伪语音作为条件参数用于另一个准确预测参数的声学模型中,实验结果表明,使用具有后向传播离散混合逻辑损失的 WGAN-GP 框架所训练的声学模型,评估得分最高,同时具有最佳的质量和说话人相似度。
Jul, 2018
本研究提出了一种基于深度神经网络的歌声合成器,使用 Wasserstein-GAN 算法进行优化,通过声学建模的声码器参数,实现对歌唱声音中音高和音色的分离,采用分块方法建模输入块内的时间依赖关系,并使用重叠添加程序将连续块拼接在一起,该模型的绩效达到了与最先进技术相竞争的水平。
Mar, 2019
本研究提出了一种名为 VocGAN 的高保真实时神经声码器,其在几乎与 MelGAN 相同的速度下,显著提高了输出波形的质量和一致性,利用多尺度波形生成器和分层嵌套鉴别器以平衡地学习多个水平的声学属性,同时应用联合条件和无条件目标,在多个评估指标中显示出显著的改进
Jul, 2020
本文提出了一种新型的声波生成方法,名为 Parallel WaveGAN,采用生成对抗网络作为模型,通过优化多分辨率的频谱图和对抗损失函数来训练非自回归 WaveNet,可以很好地捕捉现实语音信号的时频分布,在不需要常规师生框架中的密度蒸馏的情况下,整个模型容易训练且生成的语音高保真,适用于 Transformer-based 文本转语音框架 且与最佳的基于蒸馏的 Parallel WaveNet 系统相媲美。
Oct, 2019
采用概率密度蒸馏技术,从 WaveNet 模型中训练一个并行前向网络,实现语音样本的超过 20 倍实时生成速度,目前已部署在 Google 助手中支持多种不同英文和日语语音。
Nov, 2017
本文提出了 FloWaveNet,一种基于可逆流的生成模型,使用单阶段训练程序和单个最大似然损失函数,无需附加的辅助项,能实时高效地输出与先前两阶段并行模型相媲美的清晰音频
Nov, 2018
本文提出了一种新的并行波形生成的解决方案,使用自回归 WaveNet 通过最小化高峰输出分布之间的 KL 散度的正则化来辨别来自自回归 WaveNet 的高斯逆自回归流。此外,我们还介绍了一种全卷积的文本到波形神经架构,能够从头开始进行快速端到端培训,极大地优于以前的流程。
Jul, 2018
该研究提出了一种名为 UnivNet 的神经声码器,利用全频带谱特征作为输入,通过添加多分辨率谱图鉴别器来解决非锐利音频信号生成的问题,并在大量演讲者信息数据集上取得最佳客观和主观结果。
Jun, 2021
本研究提出了一种名为 HiNet 的神经声码器,其通过分层预测振幅和相位谱从声学特征重建语音波形,包含振幅谱预测器(ASP)、相位谱预测器(PSP)以及基于神经源 - 滤波器波形生成器和相位提取器的 PSP。此外,我们还将生成对抗网络引入到 ASP 和 PSP 中。最终,ASP 和 PSP 的输出通过短时傅里叶合成结合生成 1s 语音波形的时间可大幅减少。
Jun, 2019
本文提出一种基于 WaveNet 的声码器 GlotNet,通过利用源 - 滤波器模型来更有效地训练具有有限资源的说话人独立音形生成器,实现跨多个说话人共享波形发生器模型,而且多测试显示该模型表现优于直接的 WaveNet 声码器。
Apr, 2018