May, 2025

面向自我中心视频的物体镜头增强定位网络

TL;DR本研究针对现有自我中心视频定位方法忽视的自我中心视频特征和细粒度信息的缺失问题,提出了一种新颖的物体镜头增强定位网络(OSGNet)。通过提取视频中的物体信息并分析自我中心视频的镜头运动,本方法显著提升了模型对模态对齐的能力,实验结果表明OSGNet在多个数据集上实现了最先进的性能,证明了该方法的有效性。