Nov, 2024
场景感知音视频语音增强与选择状态空间模型
SAV-SE: Scene-aware Audio-Visual Speech Enhancement with Selective State
Space Model
TL;DR本研究解决了语音增强过程中存在的视觉信息利用不足的问题,尤其是在面临遮挡或远摄时的环境。本论文首次提出利用同步视频中的丰富上下文信息作为辅助线索来识别噪声类型,从而显著提升语音增强性能。实验结果表明,所提出的VC-S²E方法在多个公共数据集上的表现优于其他竞争方法。