Jul, 2023

从视听一致性中学习自我中心视频的空间特征

TL;DR基于自监督方法,我们提出了一种学习表示的方法,基于主观视角视频中的空间音频 - 视觉对应关系。我们利用掩蔽自编码框架合成掩蔽的双耳音频,通过音频和视觉的协同作用来学习有用的空间关系。我们利用预先训练的特征来解决在社交场景中需要空间理解的两个下游视频任务:活跃说话者检测和空间音频去噪。通过大量实验证明,我们的特征足够通用,能够在两个公开具有挑战性的主观视角视频数据集 EgoCom 和 EasyCom 上改进多个最先进的基准模型。