多模态空间校正器实现自我中心场景理解

CVPRJul, 2022

多模态空间校正器实现自我中心场景理解

Egocentric Scene Understanding via Multimodal Spatial Rectifier

Tien Do, Khiem Vuong, Hyun Soo Park

TL;DR本文提出了一种多模态空间矫正器解决自我中心图像中景深和表面法线预测的挑战，同时提出了一个新的数据集 EDINA 并使用多模态空间矫正器进行单视角深度和表面法线预测，在常见的自我中心图像数据集上优于基准模型。

Abstract

In this paper, we study a problem of egocentric scene understanding, i.e., predicting depths and surface normals from an egocentric image. Egocentric scene understanding poses unprecedented challenges: (1) due to large head movements, the images are taken from non-canonical viewpoints

egocentric scene understanding multimodal spatial rectifier edina dataset depth and surface normal estimation egocentric datasets

发现论文，激发创造

无监督室内深度估计的自校正网络

提出了一种基于自动矫正网络的数据预处理方法，解决了手持场景下旋转运动对单视角深度估计的干扰问题，并针对不同数据集验证了该方法的有效性及通用性。

Jun, 2020

通过空间矫正器估计倾斜图像的表面法线

本文提出了一种空间矫正器，用于估计倾斜图像的表面法线，并结合截断角损失和 Tilt-RGBD 数据集的应用，取得了优于现有方法的表现。

Jul, 2020

工业场景中的主体视角 RGB + 深度行为识别

我们的研究集中在认识行为，特别是来自以自我为中心视角的行为，并结合深度模态从工业环境中识别行为。针对现实世界中多模态行为发生的困难，我们提出了一种训练策略，并通过后期融合来结合来自每种模态的预测，这在 MECCANO 数据集上明显优于先前的工作，并在 ICIAP 2023 的多模态行为识别挑战中获得第一名。

Sep, 2023

自我中心行为识别的多模态蒸馏

本文研究了如何在仅使用 RGB 帧作为输入的情况下，保持多模态方法的性能表现，进而采用多模型知识蒸馏框架来处理这个问题，并在输入视角数量减少的情况下展示了更高的性能。

Jul, 2023

自我中心的三维动作目标预测

该研究旨在从自我中心视角预测人的物体操纵行为的目标位置。他们提出了一个包含 RGB-D 和 IMU 流的大型多模态数据集，并设计了使用递归神经网络的基线方法，并进行了各种消融研究以验证其有效性，从而证明该新任务值得进一步学习。

Mar, 2022

UnRectDepthNet: 使用通用框架处理常见相机失真模型的自监督单目深度估计

提出了一种通用的自我监督的尺度感知管道用于从未经矫正的单目视频中估计深度、欧几里得距离和视觉里程计，该方法可以避免长焦变形输入的失真，不会受视野范围缩小、重新采样畸变、校准误差敏感的副作用影响，性能优越。

Jul, 2020

Aria-NeRF：多模态自我中心视图合成

我们通过可微分的体积光线追踪，借鉴神经辐射场（NeRF）的思想，试图加快从自我中心数据中开发富有多模态场景模型的研究。我们提供了一个全面的多模态自我中心视频数据集，用于支持和促进自我中心多模态场景建模的发展和评估。

Nov, 2023

PanoNormal：单目室内 360° 表面法线估计

介绍了一种用于 360 度图像的单目表面法线估计架构 PanoNormal，通过使用多级全局自注意机制和考虑球面特征分布，结合了 CNN 和 ViTs 的优势，实现了在多个流行的 360 度单目数据集上的最先进性能。

May, 2024

EgoGaussian: 从第一人称视频中使用三维高斯喷射实现动态场景理解

使用 EgoGaussian 方法，通过 RGB egocentric input 可以同时重建 3D 场景和动态跟踪 3D 物体运动，并在具有挑战性的自然环境中表现优于之前的方法。

Jun, 2024

场景理解的分解神经表示

本研究提出了一种基于神经网络的场景表示方法，可以直接从 RGB-D 视频中学习物体级别的神经表示，并具有显式的对象运动编码和 / 或变形编码，该方法评估后表明具有高效性，可解释性和可编辑性。

Apr, 2023