May, 2023

使用修改的 DCT 频谱驯服基于 Transformer 的 GAN 进行语音超分辨率

TL;DR提出基于 MDCT 的 mdctGAN SSR 框架,通过敌对学习在 MDCT 域中以相位感知的方式重构高质量的语音,无需使用语音编解码器或其他额外的后处理,实验结果显示该模型在各种输入速率下,实现了 48 kHz 目标分辨率下的最新的对数组距离(LSD)性能。