May, 2024

融入曼巴进行语音增强的研究

TL;DR研究了一种可扩展的状态空间模型(SSM)Mamba,用于语音增强(SE)任务,利用基于 Mamba 的回归模型来表征语音信号,并在 Mamba 上构建了一个 SE 系统,命名为 SEMamba,在基本和高级 SE 系统中集成了 Mamba 的属性,并利用信号级距离和基于度量的损失函数。SEMamba 表现出有希望的结果,并在 VoiceBank-DEMAND 数据集上获得了 3.55 的 PESQ 分数。当与感知对比拉伸技术结合使用时,所提出的 SEMamba 获得了 3.69 的最新的 PESQ 分数。