HiFi-GAN: 高效高保真语音合成的生成对抗网络
使用条件前馈生成器和多个鉴别器组成的架构,GAN-TTS 能够生成自然度与当前最先进的模型相当,而且可以高度并行化。同时,研究者还使用了主观人类评估及新型量化指标来评估 GAN-TTS 的性能。
Sep, 2019
本文介绍了在频谱域中建模日志幅度和瞬时频率可提高 GAN 在音频合成方面的表现,并通过 NSynth 数据集的大量实证研究表明,GAN 能够比强 WaveNet 基线在自动化和人工评估指标上表现更好,而且比自回归模型产生的音频快几个数量级。
Feb, 2019
本文提出了一种名为 “Fre-GAN” 的神经音源模型,通过分辨率连接生成器和分辨率智能的鉴别器,在多个频带中学习各种尺度的频谱分布,有效地实现高保真频率一致性音频合成,并在质量和 MOS 上优于标准模型。
Jun, 2021
提出了一种名为 SingGAN 的生成对抗网络,用于高保真度歌声合成,该网络通过提出源激发、全局和局部判别器、辅助频谱损失和子带特征匹配惩罚损失等方法,解决了通过文本合成的神经声码器不能直接应用于合成歌声的问题,该网络不仅具有接近现实的音质效果,而且在单个 NVIDIA 2080Ti GPU 上还能实现 50 倍于实时的速度。
Oct, 2021
本篇论文介绍了 WaveGAN,这是将 GANs 应用到无监督的原始音频波形合成中的第一个尝试。WaveGAN 能够合成具有全局一致性的音频波形,适用于音效生成,并且实验结果表明,它能够在没有标签的情况下学习生成一些可理解的单词和其他领域(如鸟类鸣叫、钢琴和鼓声等)的音频。
Feb, 2018
本研究提出了一种名为 HiFiSinger 的 SVS 系统,通过采用 FastSpeech 基于百度的语音模型和 Parallel WaveGAN 模型,使用小波变换处理声波时频信息,采用多级对抗训练,在高采样率情况下合成高保真度的歌唱声音。
Sep, 2020
通过扩展性生成对抗网络(EVA-GAN)以及使用大规模模型、高保真音频生成、领域外数据鲁棒性以及频谱与高频重建方面的显著改进,我们的工作能够通过采用 36000 小时的 44.1kHz 音频数据集、上下文感知模块和人在循环中的工件测量工具包,并对模型扩展至约 2 亿个参数,实现高保真音频的生成。
Jan, 2024
本文介绍了一种使用生成对抗网络(GAN)的统计参数语音合成方法,相比于传统的最小生成误差训练算法,该方法能够更自然地生成语音波形,并有效缓解了生成语音参数的平滑问题。我们还研究了不同 GAN 之间的差异,并发现最小化 Earth-Mover 距离的 Wasserstein GAN 可以最大程度地提高合成语音的质量。
Sep, 2017
本文介绍了一种名为 HiFTNet 的扩展模型,通过在时频域中使用基频(F0)的正弦源来快速推理,结合了反短时傅里叶变换(iSTFT)和谐波加噪声源滤波器,实现了高效、高质量的神经音频编码,为实时高质量语音合成应用开辟了新的前景。
Sep, 2023