CVPRMar, 2023

自我中心视听物体定位

TL;DR本文提出了一个几何感知的时间聚合模块和级联特征增强模块来解决显式处理自我运动和消除视角移动对音视觉定位的影响,并通过自我监督学习开发 Epic Sounding Object 数据集评估模型,证明了我们的方法在以人为中心的视频中取得了最先进的对象定位性能,并可以推广到不同的音视觉场景。