Fre-GAN: 对抗训练的频率一致音频合成

Jun, 2021

Fre-GAN: 对抗训练的频率一致音频合成

Fre-GAN: Adversarial Frequency-consistent Audio Synthesis

Ji-Hoon Kim, Sang-Hoon Lee, Ji-Hyun Lee, Seong-Whan Lee

TL;DR本文提出了一种名为 “Fre-GAN” 的神经音源模型，通过分辨率连接生成器和分辨率智能的鉴别器，在多个频带中学习各种尺度的频谱分布，有效地实现高保真频率一致性音频合成，并在质量和 MOS 上优于标准模型。

Abstract

Although recent works on neural vocoder have improved the quality of synthesized audio, there still exists a gap between generated and ground-truth audio in frequency space. This difference leads to spectral artifacts such as hissing noise or reverberation, and thus degrades the sample quality. In this paper, we propose Fre-GAN which achieves →

neural vocoders audio synthesis wavelet transform frequency-consistent resolution-connected generator

发现论文，激发创造

HiFi-GAN: 高效高保真语音合成的生成对抗网络

该研究提出了 HiFi-GAN，一种高效且高保真度的语音合成方法，通过对声音的周期性模式进行建模，生成的音频质量接近于人类水平。

Oct, 2020

对抗性音频合成

本篇论文介绍了 WaveGAN，这是将 GANs 应用到无监督的原始音频波形合成中的第一个尝试。WaveGAN 能够合成具有全局一致性的音频波形，适用于音效生成，并且实验结果表明，它能够在没有标签的情况下学习生成一些可理解的单词和其他领域（如鸟类鸣叫、钢琴和鼓声等）的音频。

Feb, 2018

GANSynth：对抗神经音频合成

本文介绍了在频谱域中建模日志幅度和瞬时频率可提高 GAN 在音频合成方面的表现，并通过 NSynth 数据集的大量实证研究表明，GAN 能够比强 WaveNet 基线在自动化和人工评估指标上表现更好，而且比自回归模型产生的音频快几个数量级。

Feb, 2019

生成模型的频率偏差

该研究通过对生成对抗网络的结构进行分析，提出了一些关于频率偏差和高频伪影的新发现，并尝试分析了一些现有的提高生成质量的方法，但没有实现完美的改进。最后，该研究建议，提升鉴别器的质量将是解决频率伪影问题的关键。

Nov, 2021

用对抗网络实现高保真度语音合成

使用条件前馈生成器和多个鉴别器组成的架构，GAN-TTS 能够生成自然度与当前最先进的模型相当，而且可以高度并行化。同时，研究者还使用了主观人类评估及新型量化指标来评估 GAN-TTS 的性能。

Sep, 2019

WaveGAN：面向高保真少样本图像生成的频率感知 GAN

提出了 WaveGAN，一种面向少样本图像生成的频率感知模型，通过对多个频率组件的编码特征进行解耦，并通过低频跳过连接和高频跳过连接来生成高质量的图像，实验证明其在三个数据集上均取得了最先进的效果。

Jul, 2022

SingGAN：用于高保真唱歌声音生成的生成对抗网络

提出了一种名为 SingGAN 的生成对抗网络，用于高保真度歌声合成，该网络通过提出源激发、全局和局部判别器、辅助频谱损失和子带特征匹配惩罚损失等方法，解决了通过文本合成的神经声码器不能直接应用于合成歌声的问题，该网络不仅具有接近现实的音质效果，而且在单个 NVIDIA 2080Ti GPU 上还能实现 50 倍于实时的速度。

Oct, 2021

基于生成对抗网络的音频到场景图像合成

通过使用生成对抗网络、谱范数、投影判别器和辅助分类器等技术，我们的模型可以更好地生成声音相关的图像，这表明我们的模型在一定程度上真正了解声音和图像之间的关系。

Aug, 2018

利用频率分析进行深度虚假图像识别

通过对生成对抗性网络的频域进行分析，我们发现生成的 Deep fake images 在这一领域会展现出一些严重的瑕疵，通过这些瑕疵可以自动识别出 deep fake images，超越了现有的最先进方法。

Mar, 2020

EVA-GAN: 提升各种音频生成的可扩展生成对抗网络

通过扩展性生成对抗网络（EVA-GAN）以及使用大规模模型、高保真音频生成、领域外数据鲁棒性以及频谱与高频重建方面的显著改进，我们的工作能够通过采用 36000 小时的 44.1kHz 音频数据集、上下文感知模块和人在循环中的工件测量工具包，并对模型扩展至约 2 亿个参数，实现高保真音频的生成。

Jan, 2024