Dec, 2023

基于注意力的移动声源场景下的多通道语音增强

TL;DR当前的多通道语音增强算法通常假设声源是固定的,这与现实不符,限制了它们在实际场景中的性能。本文聚焦于为动态环境设计的基于注意力的空间滤波技术。具体地,我们研究了线性和非线性注意力方法在估计时变空间协方差矩阵以设计滤波器时的应用。我们还研究了通过注意力方法直接估计空间滤波器,而无需明确估计空间统计数据。使用 WSJ0 中的干净语音片段模拟在混响环境中移动发声者的语音信号生成实验数据集,其中混合了 CHiME-3 中的多通道真实噪声。评估结果表明,基于注意力的方法在静态和动态声音环境中均表现出鲁棒性,并始终优于传统的空间滤波方法。