Apr, 2024

来自以自我为中心的视频的空间认知:视力范围之外,心灵之内

TL;DR通过使用自我中心相机捕获的观测,本研究旨在模仿人类空间认知能力,从而实现在物体超出视野范围时的 3D 跟踪活动物体的任务。利用 Lift, Match and Keep (LMK) 方法,将部分二维观测提升到三维世界坐标,通过视觉外观、三维位置与物体交互来匹配物体轨迹,并在相机视野之外保留这些物体轨迹,从而记住所看不见的物体。在来自 EPIC-KITCHENS 的 100 段长视频上测试 LMK,结果表明空间认知对于正确定位物体在短时间和长时间尺度上至关重要。例如,在一个长时间的自我中心视角视频中,我们估计了 50 个活动物体的三维位置,其中 60% 在离开相机视野 2 分钟后仍能正确定位到三维空间中。