May, 2023

FastFit: 通过多个 STFT 代替 U-Net 编码器,实现实时迭代神经声码器

TL;DR本文介绍了一种新的神经声码器架构 FastFit, 其使用多个短时傅里叶变换 (STFT) 来替换 U-Net 编码器,从而实现更快的生成速度,而不会牺牲样品质量。通过客观和主观的评估,我们证明了该模型提高了将近两倍的基准迭代声码器的生成速度,同时保持高音质。进一步表明,在多说话人和零 - shot 文本到语音等评估场景中,FastFit 产生了与其他基线模型类似的音质。