Jan, 2024

EVA-GAN: 提升各种音频生成的可扩展生成对抗网络

TL;DR通过扩展性生成对抗网络(EVA-GAN)以及使用大规模模型、高保真音频生成、领域外数据鲁棒性以及频谱与高频重建方面的显著改进,我们的工作能够通过采用 36000 小时的 44.1kHz 音频数据集、上下文感知模块和人在循环中的工件测量工具包,并对模型扩展至约 2 亿个参数,实现高保真音频的生成。