Fre-GAN: 对抗训练的频率一致音频合成
本篇论文介绍了 WaveGAN,这是将 GANs 应用到无监督的原始音频波形合成中的第一个尝试。WaveGAN 能够合成具有全局一致性的音频波形,适用于音效生成,并且实验结果表明,它能够在没有标签的情况下学习生成一些可理解的单词和其他领域(如鸟类鸣叫、钢琴和鼓声等)的音频。
Feb, 2018
本文介绍了在频谱域中建模日志幅度和瞬时频率可提高 GAN 在音频合成方面的表现,并通过 NSynth 数据集的大量实证研究表明,GAN 能够比强 WaveNet 基线在自动化和人工评估指标上表现更好,而且比自回归模型产生的音频快几个数量级。
Feb, 2019
该研究通过对生成对抗网络的结构进行分析,提出了一些关于频率偏差和高频伪影的新发现,并尝试分析了一些现有的提高生成质量的方法,但没有实现完美的改进。最后,该研究建议,提升鉴别器的质量将是解决频率伪影问题的关键。
Nov, 2021
使用条件前馈生成器和多个鉴别器组成的架构,GAN-TTS 能够生成自然度与当前最先进的模型相当,而且可以高度并行化。同时,研究者还使用了主观人类评估及新型量化指标来评估 GAN-TTS 的性能。
Sep, 2019
提出了 WaveGAN,一种面向少样本图像生成的频率感知模型,通过对多个频率组件的编码特征进行解耦,并通过低频跳过连接和高频跳过连接来生成高质量的图像,实验证明其在三个数据集上均取得了最先进的效果。
Jul, 2022
提出了一种名为 SingGAN 的生成对抗网络,用于高保真度歌声合成,该网络通过提出源激发、全局和局部判别器、辅助频谱损失和子带特征匹配惩罚损失等方法,解决了通过文本合成的神经声码器不能直接应用于合成歌声的问题,该网络不仅具有接近现实的音质效果,而且在单个 NVIDIA 2080Ti GPU 上还能实现 50 倍于实时的速度。
Oct, 2021
通过使用生成对抗网络、谱范数、投影判别器和辅助分类器等技术,我们的模型可以更好地生成声音相关的图像,这表明我们的模型在一定程度上真正了解声音和图像之间的关系。
Aug, 2018
通过对生成对抗性网络的频域进行分析,我们发现生成的 Deep fake images 在这一领域会展现出一些严重的瑕疵,通过这些瑕疵可以自动识别出 deep fake images, 超越了现有的最先进方法。
Mar, 2020
通过扩展性生成对抗网络(EVA-GAN)以及使用大规模模型、高保真音频生成、领域外数据鲁棒性以及频谱与高频重建方面的显著改进,我们的工作能够通过采用 36000 小时的 44.1kHz 音频数据集、上下文感知模块和人在循环中的工件测量工具包,并对模型扩展至约 2 亿个参数,实现高保真音频的生成。
Jan, 2024