HiFi-GAN: 高效高保真语音合成的生成对抗网络

Oct, 2020

HiFi-GAN: 高效高保真语音合成的生成对抗网络

HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis

Jungil Kong, Jaehyeon Kim, Jaekyoung Bae

TL;DR该研究提出了 HiFi-GAN，一种高效且高保真度的语音合成方法，通过对声音的周期性模式进行建模，生成的音频质量接近于人类水平。

Abstract

Several recent work on speech synthesis have employed generative adversarial networks (GANs) to produce raw waveforms. Although such methods improve the sampling efficiency and memory usage, their sample quality has not yet reached that of autoregressive and flow-based →

speech synthesis hifi-gan generative models periodic patterns high-fidelity audio

发现论文，激发创造

用对抗网络实现高保真度语音合成

使用条件前馈生成器和多个鉴别器组成的架构，GAN-TTS 能够生成自然度与当前最先进的模型相当，而且可以高度并行化。同时，研究者还使用了主观人类评估及新型量化指标来评估 GAN-TTS 的性能。

Sep, 2019

GANSynth：对抗神经音频合成

本文介绍了在频谱域中建模日志幅度和瞬时频率可提高 GAN 在音频合成方面的表现，并通过 NSynth 数据集的大量实证研究表明，GAN 能够比强 WaveNet 基线在自动化和人工评估指标上表现更好，而且比自回归模型产生的音频快几个数量级。

Feb, 2019

Fre-GAN: 对抗训练的频率一致音频合成

本文提出了一种名为 “Fre-GAN” 的神经音源模型，通过分辨率连接生成器和分辨率智能的鉴别器，在多个频带中学习各种尺度的频谱分布，有效地实现高保真频率一致性音频合成，并在质量和 MOS 上优于标准模型。

Jun, 2021

SingGAN：用于高保真唱歌声音生成的生成对抗网络

提出了一种名为 SingGAN 的生成对抗网络，用于高保真度歌声合成，该网络通过提出源激发、全局和局部判别器、辅助频谱损失和子带特征匹配惩罚损失等方法，解决了通过文本合成的神经声码器不能直接应用于合成歌声的问题，该网络不仅具有接近现实的音质效果，而且在单个 NVIDIA 2080Ti GPU 上还能实现 50 倍于实时的速度。

Oct, 2021

对抗性音频合成

本篇论文介绍了 WaveGAN，这是将 GANs 应用到无监督的原始音频波形合成中的第一个尝试。WaveGAN 能够合成具有全局一致性的音频波形，适用于音效生成，并且实验结果表明，它能够在没有标签的情况下学习生成一些可理解的单词和其他领域（如鸟类鸣叫、钢琴和鼓声等）的音频。

Feb, 2018

HiFiSinger: 面向高保真神经歌声合成

本研究提出了一种名为 HiFiSinger 的 SVS 系统，通过采用 FastSpeech 基于百度的语音模型和 Parallel WaveGAN 模型，使用小波变换处理声波时频信息，采用多级对抗训练，在高采样率情况下合成高保真度的歌唱声音。

Sep, 2020

EVA-GAN: 提升各种音频生成的可扩展生成对抗网络

通过扩展性生成对抗网络（EVA-GAN）以及使用大规模模型、高保真音频生成、领域外数据鲁棒性以及频谱与高频重建方面的显著改进，我们的工作能够通过采用 36000 小时的 44.1kHz 音频数据集、上下文感知模块和人在循环中的工件测量工具包，并对模型扩展至约 2 亿个参数，实现高保真音频的生成。

Jan, 2024

MelGAN: 生成对抗网络用于条件波形合成

该研究提供了一种新的、用于生成高质量音频的 GAN 结构以及相关训练技巧，并证明了其在语音合成、音乐领域翻译和音乐合成中的有效性。

Oct, 2019

融合生成对抗网络的统计参数语音合成

本文介绍了一种使用生成对抗网络（GAN）的统计参数语音合成方法，相比于传统的最小生成误差训练算法，该方法能够更自然地生成语音波形，并有效缓解了生成语音参数的平滑问题。我们还研究了不同 GAN 之间的差异，并发现最小化 Earth-Mover 距离的 Wasserstein GAN 可以最大程度地提高合成语音的质量。

Sep, 2017

HiFTNet：具备谐波加噪滤波器和逆短时傅里叶变换的高速高质量神经声码器

本文介绍了一种名为 HiFTNet 的扩展模型，通过在时频域中使用基频（F0）的正弦源来快速推理，结合了反短时傅里叶变换（iSTFT）和谐波加噪声源滤波器，实现了高效、高质量的神经音频编码，为实时高质量语音合成应用开辟了新的前景。

Sep, 2023