Jan, 2024

双耳角度分离网络

TL;DR我们提出了一个神经网络模型,可以使用两个麦克风在不同的角度区域将目标语音源与干扰源分离。该模型使用模拟的室内脉冲响应进行训练,无需收集真实的脉冲响应。通过依赖特定的角度区域和多个房间模拟,该模型利用一致的到达时间差(TDOA)线索,或者我们称之为延迟对比,将目标和干扰源分离,同时在各种混响环境中保持稳健性。我们展示了该模型不仅适用于具有稍微不同麦克风几何结构的商用设备,而且优于我们之前使用同一设备上的一个额外麦克风的工作。该模型在设备上实时运行,适用于低延迟的流媒体应用,如电话和视频会议。