自主智能体的 2.5/3D 室内场景理解：一份综述

Mar, 2018

自主智能体的 2.5/3D 室内场景理解：一份综述

Indoor Scene Understanding in 2.5/3D for Autonomous Agents: A Survey

Muzammal Naseer, Salman H Khan, Fatih Porikli

TL;DR本文系统地总结介绍了低成本稳定的 2.5/3D 视觉感知器件在计算机视觉领域中如何应用于室内环境中的视觉场景理解，包括数据表示，核心技术，场景理解任务，性能评价以及面临的挑战。

Abstract

With the availability of low-cost and compact 2.5/3D visual sensing devices, computer vision community is experiencing a growing interest in visual scene understanding of indoor environments. This survey paper pr

computer vision visual sensing visual scene understanding indoor environment performance metrics

发现论文，激发创造

使用合成数据理解现实世界室内场景的 SceneNet

本文研究场景理解问题，通过使用计算机图形学生成合成 3D 场景，以解决手动收集大量数据问题，从而避免了收集数据的麻烦和昂贵成本。通过使用深度数据作为输入仅使用 RGB-D 系统的深度数据，我们在 NYUv2 数据集上的表现相当于最先进的 RGBD 系统，并在 SUN RGB-D 数据集上设置了基准。文章还探讨了生成合成图像或视频数据，以及分析影响性能增益的不同因素。

Nov, 2015

面向室内移动代理的多模态多任务场景理解模型

本文探讨了个性化移动智能体中的感知系统需要开发室内场景理解模型，该模型能够理解 3D 几何、捕捉客观性、分析人类行为等，并且描述了 MMISM（多模态输入多任务输出室内场景理解模型）来解决室内环境数据量不足以及杂乱信息融合等问题，并表明 MMISM 在 3D 目标检测结果上优于传统单一任务模型。

Sep, 2022

机器视觉场景理解挑战赛

利用模拟技术和新的测试方法，提出了一种用于测试具有主动机器人视觉系统的场景理解系统的标准挑战，旨在推动场景理解领域的最新研究。

Sep, 2020

室内场景的完整三维模型预测

本文提出了一种基于数据驱动的方法解释室内场景，并利用 CAD 3D 模型表示场景中的物体和墙壁布局，最终在 NYU 数据集上呈现了令人鼓舞的结果。

Apr, 2015

多模式三维场景理解的最新进展：综合调研和评估

本文对多模态 3D 场景理解的最新进展进行了系统调查，介绍了各种多模态任务的背景和困难，分类了现有方法，并对它们的优势和限制进行了探索，提供了在几个基准数据集上的对比结果和深入分析，最后讨论了未解决的问题并提出未来研究的几个潜在方向。

Oct, 2023

合作式整体场景理解：统一 3D 物体、布局和相机位姿估计

本文提出了一种端到端模型，可以仅依靠单个 RGB 图像实时同时解决 3D 室内场景理解中的物体边界框、房间布局和相机姿势问题，并通过对目标进行参数化和协同训练等手段，显著提升了 3D 物体检测、3D 布局估计、3D 相机姿势估计和整体场景理解的精度。

Oct, 2018

从单张图像中实现室内场景的联合布局、物体姿态和网格重建的全面 3D 理解

提出了一种端到端的解决方案，通过从单个图像中重建室内场景布局，物体包围盒和网格来解决室内场景的语义重建问题，实验证明该方法在室内布局估计，三维物体检测和网格重建方面的表现优于现有方法。

Feb, 2020

利用大型语言模型进行机器人三维场景理解

探讨使用大量语言模型来实现场景理解的常识；介绍了三种利用语言对包含对象的室内环境进行分类的范例：（i）零样本方法，（ii）前馈分类器方法和（iii）对比分类器方法，在现代空间感知系统生成的 3D 场景图上进行操作，并通过分析每种途径，展示了显着的零样本泛化和转移能力；最后，展示了这些方法也适用于推断包含房间的建筑标签，并在真实环境中展示了零样本方法。

Sep, 2022

将人类置于场景中：学习 3D 室内环境中的可支配性

本论文探讨了在三维室内场景中预测人类动作所需的可负担性建模技术，并通过引入语义和几何结构来创建大规模数据集合并使用三维姿态合成器预测出语义合理的人体姿态。最终的可负担性预测方法能够持续胜过现有的最新方法。

Mar, 2019

ARKitScenes: 使用移动 RGB-D 数据的 3D 室内场景理解多样化真实世界数据集

介绍了 ARKitScenes，这是第一个使用 RGB-D 数据集且具有广泛可用深度传感器的室内场景认知数据集，并分析了数据集的有用性，包括用于 3D 对象检测和颜色引导深度上采样。

Nov, 2021