MMAug, 2023

音频视觉空间融合与递归注意力的稳健声源定位

TL;DR提出了一种音频 - 视觉空间整合网络,利用音频和视觉模态的空间线索来模仿人类在检测制造声音的对象时的行为,并引入了递归注意网络来递归地专注于对象,从而形成更准确的注意区域,通过利用音频 - 视觉模态的空间线索和递归地关注对象,我们的方法可以实现更稳健的声源定位,全面的实验结果表明了该方法优于现有方法。