利用数据增强条件式鉴别器训练基于生成对抗网络的声码器模型

Mar, 2024

利用数据增强条件式鉴别器训练基于生成对抗网络的声码器模型

Training Generative Adversarial Network-Based Vocoder with Limited Data Using Augmentation-Conditional Discriminator

Takuhiro Kaneko, Hirokazu Kameoka, Kou Tanaka

TL;DR基于生成对抗网络（GAN）的声码器利用对抗鉴别器进行训练，因其快速、轻量和高质量的特点而被广泛用于语音合成。然而，这种数据驱动模型需要大量训练数据，导致数据收集成本高。为了解决这个问题，我们提出了一种基于增强条件鉴别器（AugCondD）的方法，该方法在评估输入语音时考虑了增强状态，从而避免限制原始非增强分布的学习。实验结果表明，AugCondD 能够在有限数据条件下提高语音质量，并在充足数据条件下达到可比较的语音质量。

Abstract

A generative adversarial network (GAN)-based vocoder trained with an adversarial discriminator is commonly used for speech synthesis becau

generative adversarial network vocoder speech synthesis data augmentation limited data

发现论文，激发创造

使用有限数据训练生成对抗网络

本文提出一种自适应判别器增广机制，稳定有限数据中生成对抗网络的训练，无需改变损失函数或网络架构，适用于从头开始训练和调优现有 GAN 的情况，并在几个数据集上进行了实证分析，结果表明，仅使用少量的训练图像就可以获得好的结果，通常与 StyleGAN2 的结果相匹配，而使用的图像数量则少了一个数量级。此方法有望扩大 GAN 的应用领域，并发现 CIFAR-10 是一个有限数据基准，在此基础上改进了记录 FID（Fréchet Inception Distance) 由 5.59 到 2.42。

Jun, 2020

基于扩增感知的自监督学习，用于数据有效的 GAN 训练

提出了一种新型的、基于增强现实的自监督辨别器，并利用预测参数作为判别阈值，减弱了旧行的数据不变性，显著提升了数据效率，实验结果优于其他 GANs

May, 2022

通过对比鉴别器强化增强训练 GANs

本研究提出了 ContraD 方法，将对比性表示学习方案融入生成对抗网络鉴别器中，使得生成器以更强的数据增强方式工作而不会增加训练不稳定性，并且在对比学习中也能受益。实验结果表明，GANs with ContraD 在 FID 和 IS 方面表现更好，还能通过简单的潜在采样诱导许多条件生成模型。

Mar, 2021

带有辅助判别器的条件 GANs

该论文提出了一种使用辅助判别器的条件 GAN（ADC-GAN），具有较高的类内多样性，可以更准确地生成有条件的数据，并在合成及真实数据集上进行实验取得了优越结果。

Jul, 2021

利用预训练的 GAN 生成有限数据

本研究利用预训练的大规模 GAN 模型在有限数据情境下实现了对感知明显目标领域的图像生成，提出了自适应滤波器调制（AdaFM）的方法，证明了此技术在限制数据生成方面的有效性。

Feb, 2020

数据增强生成对抗网络

本文提出了一种用于数据增强的生成对抗网络 (DAGAN) 模型，其可帮助神经网络在数据不足的情况下提高泛化能力，实验结果显示在 Omniglot、EMNIST 以及 VGG-Face 数据集中，使用 DAGAN 后精度显著提高，我们同时还使用 DAGAN 增强了匹配网络 (Matching Networks) 的性能。

Nov, 2017

用于生成对抗网络的动态遮挡鉴别器

从在线持续学习的角度出发，提出了一种新颖的 GAN 方法，通过将生成的数据视为流来训练鉴别器模型，并自动检测其阻塞并动态遮罩其特征，使其能够适应临时变化的生成数据分布。实验结果表明，该方法优于现有的最先进方法。

Jun, 2023

用对抗网络实现高保真度语音合成

使用条件前馈生成器和多个鉴别器组成的架构，GAN-TTS 能够生成自然度与当前最先进的模型相当，而且可以高度并行化。同时，研究者还使用了主观人类评估及新型量化指标来评估 GAN-TTS 的性能。

Sep, 2019

GAN 能否听见？从扩散模型中重获无条件语音合成

AudioStyleGAN 是一个基于生成对抗网络的语音合成模型，利用噪声转换为分离的潜在向量，并引入新技术成功训练模型和实现不需要显式训练的语音转换和编辑，取得了 Google Speech Commands 数据集上的最佳效果。

Oct, 2022

条件生成对抗网络

本文介绍了一种新颖的生成模型 —— 条件生成对抗网络，可以通过给生成器和判别器同时提供我们希望对条件进行的数据 y 来构建。本文展示了这个模型可以根据类别标签生成 MNIST 数字，并提供了一个多模态的模型应用示例，演示了如何生成不属于训练标签的描述性标签。

Nov, 2014