来自以自我为中心的视频的空间认知：视力范围之外，心灵之内

Apr, 2024

来自以自我为中心的视频的空间认知：视力范围之外，心灵之内

Spatial Cognition from Egocentric Video: Out of Sight, Not Out of Mind

Chiara Plizzari, Shubham Goel, Toby Perrett, Jacob Chalk, Angjoo Kanazawa...

TL;DR通过使用自我中心相机捕获的观测，本研究旨在模仿人类空间认知能力，从而实现在物体超出视野范围时的 3D 跟踪活动物体的任务。利用 Lift, Match and Keep (LMK) 方法，将部分二维观测提升到三维世界坐标，通过视觉外观、三维位置与物体交互来匹配物体轨迹，并在相机视野之外保留这些物体轨迹，从而记住所看不见的物体。在来自 EPIC-KITCHENS 的 100 段长视频上测试 LMK，结果表明空间认知对于正确定位物体在短时间和长时间尺度上至关重要。例如，在一个长时间的自我中心视角视频中，我们估计了 50 个活动物体的三维位置，其中 60% 在离开相机视野 2 分钟后仍能正确定位到三维空间中。

Abstract

As humans move around, performing their daily tasks, they are able to recall where they have positioned objects in their environment, even if these objects are currently out of sight. In this paper, we aim to mimic this spatial cognition ability. We thus formulate the task of Out of Sight, Not Out of Mind - →

spatial cognition 3d tracking egocentric camera object localization object tracking

发现论文，激发创造

视而不见，仍在脑海中：基于视频追踪启用记忆模型的未被观察到的物体的推理与规划

通过将变形器关系动力学用于部分视图点云和物体发现和跟踪引擎，我们提出了 DOOM 和 LOOM，旨在将面向对象的记忆编码到多物体操纵推理和规划框架中，以实现机器人在真实环境中可靠地处理先前观察但当前被遮挡的物体的问题，并成功实现了包括处理遮挡物体、新物体出现和物体再出现在内的多个具有挑战性的任务。通过大量的仿真和真实世界实验，我们发现我们的方法在不同数量的物体和干扰动作数量方面表现良好，并且超过了隐式记忆基准。

Sep, 2023

学习是什么和在哪里：无监督分离位置和身份跟踪

介绍了一种被称为 Loci 的自监督位置和身份追踪系统，通过处理分离的 “何处” 和 “何物” 的槽状编码解决了绑定问题，可以从视频流中有效地提取对象并将其分离成位置和整体组件，从而在概念层面上促进了有效的规划和推理。

May, 2022

自我中心视听物体定位

本文提出了一个几何感知的时间聚合模块和级联特征增强模块来解决显式处理自我运动和消除视角移动对音视觉定位的影响，并通过自我监督学习开发 Epic Sounding Object 数据集评估模型，证明了我们的方法在以人为中心的视频中取得了最先进的对象定位性能，并可以推广到不同的音视觉场景。

Mar, 2023

基于 3D 地图的自我中心活动识别及定位

提出了一种基于深度概率模型的方法，结合视角与环境信息，实现对运动轨迹和动作识别的 3D 场景理解与定位

May, 2021

通过符号世界知识从自我中心视角定位活动对象

通过学习任务指令的对象信息、利用对象的动作前后条件和描述性知识，我们提出了一种改进短语定位模型的方法，通过大型语言模型来提取动作 - 对象知识，并设计了一种对象短语和符号知识的联合推理技术，实验证明我们的方法在各项指标上都取得了显著的改善。

Oct, 2023

学习目标不变的物体跟踪

该论文提出了一种端到端可训练的方法，结合物体检测和跟踪，并引入了序列记忆模块，使其更好地处理多物体跟踪，尤其是遮挡的情况。经过大规模的合成数据和实际测试，在 KITTI 和 MOT17 数据集上取得了最先进的性能表现。

Mar, 2021

使用几何感知循环网络学习空间常识

这篇论文提出了一种通过结合几何学和深度视觉表示学习的思想，将其嵌入移动视觉场景理解的递归网络架构中，以学习如何将 2D 视觉特征整合到场景的潜在 3D 特征映射中，通过不同 iable 几何操作进行预测和分割，十分成功。

Dec, 2018

自我中心的三维动作目标预测

该研究旨在从自我中心视角预测人的物体操纵行为的目标位置。他们提出了一个包含 RGB-D 和 IMU 流的大型多模态数据集，并设计了使用递归神经网络的基线方法，并进行了各种消融研究以验证其有效性，从而证明该新任务值得进一步学习。

Mar, 2022

从自我中心视频中的三维场景中实例追踪

借助自我中心传感器，本研究提出了一种新方法来解决三维视角下的物体实例追踪问题，并证明相比二维追踪方法，基于相机姿态和三维坐标的方法显著提高了追踪性能。

Dec, 2023

自我监督视觉学习中基于计算的接受者目视着物游戏的解释

本研究使用玩具箱数据集和计算机视觉框架进行自我监督对比学习实验，发现通过学习信号，将单个物体的不同视角赋予相似的表示有助于视觉学习的稳健性，这种性能的提高对于多种图像分类任务来说是可持续的。

May, 2023