Oct, 2022

GAN 能否听见?从扩散模型中重获无条件语音合成

TL;DRAudioStyleGAN 是一个基于生成对抗网络的语音合成模型,利用噪声转换为分离的潜在向量,并引入新技术成功训练模型和实现不需要显式训练的语音转换和编辑,取得了 Google Speech Commands 数据集上的最佳效果。