EVA-GAN: 提升各种音频生成的可扩展生成对抗网络

Jan, 2024

EVA-GAN: 提升各种音频生成的可扩展生成对抗网络

EVA-GAN: Enhanced Various Audio Generation via Scalable Generative Adversarial Networks

Shijia Liao, Shiyi Lan, Arun George Zachariah

TL;DR通过扩展性生成对抗网络（EVA-GAN）以及使用大规模模型、高保真音频生成、领域外数据鲁棒性以及频谱与高频重建方面的显著改进，我们的工作能够通过采用 36000 小时的 44.1kHz 音频数据集、上下文感知模块和人在循环中的工件测量工具包，并对模型扩展至约 2 亿个参数，实现高保真音频的生成。

Abstract

The advent of large models marks a new era in machine learning, significantly outperforming smaller models by leveraging vast datasets to capture and synthesize complex patterns. Despite these advancements, the exploration into →

large models scaling audio generation hifi audios generative adversarial networks

发现论文，激发创造

HiFi-GAN: 高效高保真语音合成的生成对抗网络

该研究提出了 HiFi-GAN，一种高效且高保真度的语音合成方法，通过对声音的周期性模式进行建模，生成的音频质量接近于人类水平。

Oct, 2020

Fre-GAN: 对抗训练的频率一致音频合成

本文提出了一种名为 “Fre-GAN” 的神经音源模型，通过分辨率连接生成器和分辨率智能的鉴别器，在多个频带中学习各种尺度的频谱分布，有效地实现高保真频率一致性音频合成，并在质量和 MOS 上优于标准模型。

Jun, 2021

BigVGAN: 大规模训练的通用神经声码器

该研究使用周期性激活函数和柿子化表示来改进基于生成对抗网络的声码器，提高音频合成质量。BigVGAN 是一个通用的声码器，可以应用于各种分布情况，包括未见过的语音，语言和录制环境。

Jun, 2022

GANSynth：对抗神经音频合成

本文介绍了在频谱域中建模日志幅度和瞬时频率可提高 GAN 在音频合成方面的表现，并通过 NSynth 数据集的大量实证研究表明，GAN 能够比强 WaveNet 基线在自动化和人工评估指标上表现更好，而且比自回归模型产生的音频快几个数量级。

Feb, 2019

SingGAN：用于高保真唱歌声音生成的生成对抗网络

提出了一种名为 SingGAN 的生成对抗网络，用于高保真度歌声合成，该网络通过提出源激发、全局和局部判别器、辅助频谱损失和子带特征匹配惩罚损失等方法，解决了通过文本合成的神经声码器不能直接应用于合成歌声的问题，该网络不仅具有接近现实的音质效果，而且在单个 NVIDIA 2080Ti GPU 上还能实现 50 倍于实时的速度。

Oct, 2021

用对抗网络实现高保真度语音合成

使用条件前馈生成器和多个鉴别器组成的架构，GAN-TTS 能够生成自然度与当前最先进的模型相当，而且可以高度并行化。同时，研究者还使用了主观人类评估及新型量化指标来评估 GAN-TTS 的性能。

Sep, 2019

基于生成对抗网络的音频到场景图像合成

通过使用生成对抗网络、谱范数、投影判别器和辅助分类器等技术，我们的模型可以更好地生成声音相关的图像，这表明我们的模型在一定程度上真正了解声音和图像之间的关系。

Aug, 2018

SEGAN: 语音增强生成对抗网络

本研究提出使用生成对抗网络进行语音增强，通过训练模型使其在波形级别对 28 个说话人和 40 种不同噪声条件进行增强，目的是解决当前技术只能处理少量特定噪声条件和依赖于一阶统计量的问题，实验证明该模型的可行性和有效性，未来可以进一步探索生成性结构用于提高语音增强的性能。

Mar, 2017

对抗性音频合成

本篇论文介绍了 WaveGAN，这是将 GANs 应用到无监督的原始音频波形合成中的第一个尝试。WaveGAN 能够合成具有全局一致性的音频波形，适用于音效生成，并且实验结果表明，它能够在没有标签的情况下学习生成一些可理解的单词和其他领域（如鸟类鸣叫、钢琴和鼓声等）的音频。

Feb, 2018

引导式生成对抗神经网络用于表示学习和使用更少标注音频数据生成高保真音频

本论文提出了一种新的 GAN 框架，即指导生成神经网络（GGAN），旨在解决无监督表征学习模型在忽略后续使用情况时可能出现的泛化能力问题，在少量标记数据的指导下，GGAN 可以学习更好的表示。

Mar, 2020