Jun, 2023

利用小型模型的多维深层结构状态空间方法进行语音增强

TL;DR本文提出了一种多维结构化状态空间(S4)方法来增强语音,将多维的 S4 层进行白化变换以更好地捕捉跨频率轴的频谱依赖性,探索了几种基于 S4 的 T 和 TF 深层结构,其中,在 TF 领域中,与基于卷积层的传统 U 型模型相比,所提出的 S4 模型尺寸缩小了 78.6%,但在数据增强的情况下仍然达到了竞争性结果,具有较好的 PESQ 分数。