ICMLJun, 2022

使用 StyleGAN2 和 MEL 光谱图生成多样化的人声爆发

TL;DR使用条件 StyleGAN2 模型对经过处理的音频中的 Mel-spectrograms 进行训练,并将生成的 Mel-spectrograms 逆向回音频领域,从而成功改进了 ICML Expressive Vocalizations 竞赛的基线(qua 为所有情感获得 1.76 的 FAD)。