WOLONet: 面向高效和高保真度语音合成的 Wave Outlooker

Jun, 2022

WOLONet: 面向高效和高保真度语音合成的 Wave Outlooker

WOLONet: Wave Outlooker for Efficient and High Fidelity Speech Synthesis

Yi Wang, Yi Si

TL;DR本文提出了一种新的、有效的、轻量级的神经声码器 WOLONet，在实现高保真度的实时合成波形的同时，还能够在参数更少的情况下获得比 HiFiGAN 和 UnivNet 更好的生成质量。

Abstract

Recently, GAN-based neural vocoders such as Parallel WaveGAN, MelGAN, hifigan, and univnet have become popular due to their lightweight an

neural vocoders real-time synthesized waveform hifigan univnet wolonet

发现论文，激发创造

使用 WaveNet 声码器的多说话者文本转语音合成系统的 Wasserstein GAN 和基于波形损失的训练方法

提议在语音合成中使用包含条件生成式对抗网络或其变种 Wasserstein GAN with gradient penalty (WGAN-GP) 的框架，并将生成的伪语音作为条件参数用于另一个准确预测参数的声学模型中，实验结果表明，使用具有后向传播离散混合逻辑损失的 WGAN-GP 框架所训练的声学模型，评估得分最高，同时具有最佳的质量和说话人相似度。

Jul, 2018

WGANSing：基于 Wasserstein-GAN 的多声部唱歌合成器

本研究提出了一种基于深度神经网络的歌声合成器，使用 Wasserstein-GAN 算法进行优化，通过声学建模的声码器参数，实现对歌唱声音中音高和音色的分离，采用分块方法建模输入块内的时间依赖关系，并使用重叠添加程序将连续块拼接在一起，该模型的绩效达到了与最先进技术相竞争的水平。

Mar, 2019

VocGAN：一种具有分层嵌套对抗网络的高保真实时声码器

本研究提出了一种名为 VocGAN 的高保真实时神经声码器，其在几乎与 MelGAN 相同的速度下，显著提高了输出波形的质量和一致性，利用多尺度波形生成器和分层嵌套鉴别器以平衡地学习多个水平的声学属性，同时应用联合条件和无条件目标，在多个评估指标中显示出显著的改进

Jul, 2020

Parallel WaveGAN：基于多分辨率频谱图的生成对抗网络快速波形生成模型

本文提出了一种新型的声波生成方法，名为 Parallel WaveGAN，采用生成对抗网络作为模型，通过优化多分辨率的频谱图和对抗损失函数来训练非自回归 WaveNet，可以很好地捕捉现实语音信号的时频分布，在不需要常规师生框架中的密度蒸馏的情况下，整个模型容易训练且生成的语音高保真，适用于 Transformer-based 文本转语音框架且与最佳的基于蒸馏的 Parallel WaveNet 系统相媲美。

Oct, 2019

Parallel WaveNet: 快速高保真语音合成

采用概率密度蒸馏技术，从 WaveNet 模型中训练一个并行前向网络，实现语音样本的超过 20 倍实时生成速度，目前已部署在 Google 助手中支持多种不同英文和日语语音。

Nov, 2017

FloWaveNet：用于原始音频的生成流

本文提出了 FloWaveNet，一种基于可逆流的生成模型，使用单阶段训练程序和单个最大似然损失函数，无需附加的辅助项，能实时高效地输出与先前两阶段并行模型相媲美的清晰音频

Nov, 2018

ClariNet: 端到端文本到语音平行波形生成

本文提出了一种新的并行波形生成的解决方案，使用自回归 WaveNet 通过最小化高峰输出分布之间的 KL 散度的正则化来辨别来自自回归 WaveNet 的高斯逆自回归流。此外，我们还介绍了一种全卷积的文本到波形神经架构，能够从头开始进行快速端到端培训，极大地优于以前的流程。

Jul, 2018

UnivNet: 带多分辨率频谱鉴别器的神经声码器，用于高保真波形生成

该研究提出了一种名为 UnivNet 的神经声码器，利用全频带谱特征作为输入，通过添加多分辨率谱图鉴别器来解决非锐利音频信号生成的问题，并在大量演讲者信息数据集上取得最佳客观和主观结果。

Jun, 2021

一种神经编码器，采用分层生成模式的幅度与相位光谱，用于统计参数语音合成

本研究提出了一种名为 HiNet 的神经声码器，其通过分层预测振幅和相位谱从声学特征重建语音波形，包含振幅谱预测器（ASP）、相位谱预测器（PSP）以及基于神经源 - 滤波器波形生成器和相位提取器的 PSP。此外，我们还将生成对抗网络引入到 ASP 和 PSP 中。最终，ASP 和 PSP 的输出通过短时傅里叶合成结合生成 1s 语音波形的时间可大幅减少。

Jun, 2019

面向声带激励的无需说话人信息的原始波形模型

本文提出一种基于 WaveNet 的声码器 GlotNet，通过利用源 - 滤波器模型来更有效地训练具有有限资源的说话人独立音形生成器，实现跨多个说话人共享波形发生器模型，而且多测试显示该模型表现优于直接的 WaveNet 声码器。

Apr, 2018