RGB 序列递增式 3D 语义场景图预测

CVPRMay, 2023

RGB 序列递增式 3D 语义场景图预测

Incremental 3D Semantic Scene Graph Prediction from RGB Sequences

Shun-Cheng Wu, Keisuke Tateno, Nassir Navab, Federico Tombari

TL;DR本论文提出一种实时框架，使用 RGB 图像序列增量构建一致的三维语义场景图，包括新颖的增量实体估计流水线和场景图预测网络，使用多视角和几何特征，通过迭代信息传递估计三维语义场景图。经过在 3RScan 数据集上大量实验证明，该方法在这项挑战性任务中表现良好，优于现有的最先进方法。

Abstract

D semantic scene graphs are a powerful holistic representation as they describe the individual objects and depict the relation between them. They are compact high-level graphs that enable many tasks requiring scene reasoning. In real-world settings, existing →

3d semantic scene graphs incremental entity estimation pipeline message passing multi-view

发现论文，激发创造

SceneGraphFusion：基于 RGB-D 序列的增量式 3D 场景图预测

本文提出了一种利用图神经网络从三维环境中给定的一系列 RGB-D 帧逐步建立语义场景图的方法，并提出了一种适用于部分和缺失图数据的新型注意机制。实验表明，我们的方法在某些方面表现优于三维场景图预测方法，并且精度与其他三维语义方法和全景分割方法相当，同时运行速度达到每秒 35 帧。

Mar, 2021

从 3D 室内重建学习 3D 语义场景图

本文提出了一种基于场景图的三维场景理解方法，它将场景中的实体组织成图形式，运用基于 PointNet 和 Graph Convolutional Networks（GCN）的学习方法实现了场景图的回归，并且引入了一个新的数据集 3DSSG 来支持该方法的应用和评估。

Apr, 2020

ALSTER：一种用于在线 3D 语义重建的本地时空专家

我们提出了一种在线的三维语义分割方法，可以从连续的 RGB-D 帧流中增量重建三维语义地图，适用于具有实时约束的场景，例如机器人技术或混合现实。我们的方法通过联合估计每帧的几何和语义标签来有效提取输入 RGB-D 视频流的信息，并利用 2D 输入和局部 3D 领域的差异进行对语义实体的推理，进而预测场景的增量更新并整合到全局场景表示中，实验结果表明我们的方法相对于现有的在线方法在本地区域产生了改进，并且展示了互补信息可以提升性能的证据。

Nov, 2023

室内场景实时渐进式 3D 语义分割

本文提出了一种高效而健壮的技术，实现了 3D 室内场景的即时密集语义分割和重建，该方法基于高效的超体素聚类方法和来自结构和对象线索的高阶约束的条件随机场，无需预先计算即可进行渐进式密集语义分割。通过对 SceneNN 和 ScanNet 数据集中的不同室内场景进行广泛评估，证明了该技术在定性和定量实验中始终能够产生最先进的分割结果。

Apr, 2018

基于 RGBD 感知的语义分割增量式类别发现

本文提出了一种使用 RGBD sensing 的增量学习方法来进行开放式世界的语义分割，使用三维地图表示方法来标记没有语义标签的区域，实现对新的物体类别的识别及聚类。通过实验验证，该方法能够正确聚类已知和未知类别的对象，并且比现有的监督式方法具有更快的处理时间及更高的性能。

Jul, 2019

动态场景的神经场景图

该论文提出了一种新的神经渲染方法，能够将动态环境分解成场景图，通过隐式编码学习场景的变换和辐射度，并能够渲染未见过的物体、位置的各种动态场景，达到了高度逼真的效果。

Nov, 2020

从姿势 RGBD 数据学习预测场景级隐式 3D

本文提出了使用隐式函数进行场景级别三维重建的方法，利用 RGBD 数据对三维重建进行预测，与使用网络相比具有更好的鲁棒性和更少的标注要求。

Jun, 2023

使用学习编码的场景表示进行单目密集语义重建

该研究提出了一种基于变分自编码器的语义表示方法，实现了对三维语义地图的实时增量建立与空间一致的语义标签融合，可以用于单目关键帧语义映射系统，并能够实现对位姿、几何和语义的联合优化。

Mar, 2019

SCFusion：基于语义完整性的实时增量场景重建

通过实时深度数据重建场景的完整三维模型存在遮挡缺失的问题。我们提出了一个基于深度图输入序列、支持实时增量和语义场景完成的框架，其中利用一种新颖的神经架构以及基于体素状态的方式来识别精确、高效的语义完成，并将其与全局三维模型相融合，从而最终达到精准高效的三维语义场景完整。

Oct, 2020

3DMV：三维多视角联合预测在三维语义场景分割中的应用

提出了一种名为 3DMV 的新型方法，使用联合 3D - 多视图预测网络对室内环境中 RGB-D 扫描进行三维语义场景分割。通过将 RGB 和几何特征相结合，并以一个可微的 backprojection 层将其映射到三维网格中，这种联合二维 - 三维架构实现了比现有基线方法显著更好的结果。

Mar, 2018