BigVSAN：利用切片对抗网络增强基于 GAN 的神经声码器

Sep, 2023

BigVSAN：利用切片对抗网络增强基于 GAN 的神经声码器

BigVSAN: Enhancing GAN-based Neural Vocoders with Slicing Adversarial Network

Takashi Shibuya, Yuhta Takida, Yuki Mitsufuji

TL;DR研究一种修改最小二乘 GAN 的方案以满足切片对抗网络（SAN）要求，通过实验验证切片对抗网络对基于 GAN 的合成器，包括 BigVGAN 的性能改进。

Abstract

generative adversarial network (GAN)-based vocoders have been intensively studied because they can synthesize high-fidelity audio waveforms faster than real-time. However, it has been reported that most GANs fail

generative adversarial network vocoders slicing adversarial network gan-based vocoders san

发现论文，激发创造

SingGAN：用于高保真唱歌声音生成的生成对抗网络

提出了一种名为 SingGAN 的生成对抗网络，用于高保真度歌声合成，该网络通过提出源激发、全局和局部判别器、辅助频谱损失和子带特征匹配惩罚损失等方法，解决了通过文本合成的神经声码器不能直接应用于合成歌声的问题，该网络不仅具有接近现实的音质效果，而且在单个 NVIDIA 2080Ti GPU 上还能实现 50 倍于实时的速度。

Oct, 2021

Avocado: 无伪影语音编码器的生成对抗网络

本研究提出了一种名为 Avocodo 的基于 GAN 的语音合成系统，它使用多种鉴别器来评估语音波形，并利用伪四象限镜滤波器组来避免损失波，该系统在数字和人类主观测试中均表现出较高的音质。

Jun, 2022

基于生成对抗网络的歌声分离技术 SVSGAN

本文利用生成对抗网络（GAN）和时频掩模函数提出了一种新的人声分离框架，通过在对抗训练过程中进行混合谱分布和清洁谱分布之间的近似来进行分离，利用监督学习初始化参数并利用无监督学习进行优化，实验结果表明该框架可以提高音频分离效果。

Oct, 2017

BigVGAN: 大规模训练的通用神经声码器

该研究使用周期性激活函数和柿子化表示来改进基于生成对抗网络的声码器，提高音频合成质量。BigVGAN 是一个通用的声码器，可以应用于各种分布情况，包括未见过的语音，语言和录制环境。

Jun, 2022

具有奇异值剪切的时间生成对抗网络

本文提出了一种生成式模型 Temporal Generative Adversarial Nets（TGAN），用于学习未标记视频的语义表示，并能够生成视频。我们的模型利用两种不同类型的生成器：时间生成器和图像生成器，解决了利用现有的基于 GAN 的方法生成视频时存在的问题。为了稳定训练，我们采用了最近提出的 Wasserstein GAN 模型，并提出了一种稳定的端到端训练方法。实验结果表明了我们方法的有效性。

Nov, 2016

对抗性音频合成

本篇论文介绍了 WaveGAN，这是将 GANs 应用到无监督的原始音频波形合成中的第一个尝试。WaveGAN 能够合成具有全局一致性的音频波形，适用于音效生成，并且实验结果表明，它能够在没有标签的情况下学习生成一些可理解的单词和其他领域（如鸟类鸣叫、钢琴和鼓声等）的音频。

Feb, 2018

VocGAN：一种具有分层嵌套对抗网络的高保真实时声码器

本研究提出了一种名为 VocGAN 的高保真实时神经声码器，其在几乎与 MelGAN 相同的速度下，显著提高了输出波形的质量和一致性，利用多尺度波形生成器和分层嵌套鉴别器以平衡地学习多个水平的声学属性，同时应用联合条件和无条件目标，在多个评估指标中显示出显著的改进

Jul, 2020

SAN: 一个强健的端到端自动语音识别模型架构

本研究提出一种新颖的 Siamese Adversarial Network (SAN) 结构，可以显著降低字符误差率（CER），实现了自动语音识别任务上的新突破。该网络能够捕捉到更多的声学特征，同时优化输出分布，适用于含有不清晰音频的数据集。

Oct, 2022

几何生成对抗网络

该研究揭示了 GAN 模型的几何思想，提出了通过 SVM 分离超平面最大化间隔的几何 GAN，证明了其可以收敛到鞍点，并显示其优越的性能。

May, 2017

GAN 的稀疏感知归一化

本文提出了一种新的归一化方法（SAN），并通过大量实验证明，与现有的方法相比，SAN 能够在 GAN 的训练中取得更好的效果。SAN 考虑了稀疏性，并且在 ReLU 激活的卷积网络中特别有效，并且在图像到图像翻译任务中表现出更好的性能，并且能够在较少的训练时期内以及较小的容量网络中发挥作用，而且几乎不需要计算开销。

Mar, 2021