SLCF-Net: 基于 3D 循环 U-Net 的顺序式激光雷达 - 摄像机融合的语义场景补全

Mar, 2024

SLCF-Net: 基于 3D 循环 U-Net 的顺序式激光雷达 - 摄像机融合的语义场景补全

SLCF-Net: Sequential LiDAR-Camera Fusion for Semantic Scene Completion using a 3D Recurrent U-Net

Helin Cao, Sven Behnke

TL;DRSLCF-Net 是一种新颖的方法，通过顺序融合 LiDAR 和相机数据来进行语义场景补全任务，从 RGB 图像序列和稀疏的 LiDAR 测量中联合估计场景中的缺失几何和语义信息，通过预训练的 2D U-Net 对图像进行语义分割，并从基于深度的 Depth Anything 中估计密集的深度先验，利用高斯衰减深度先验投影将 2D 图像特征投射到 3D 场景体积中，并使用 3D U-Net 计算体积语义，通过传感器运动传播隐藏的 3D U-Net 状态，并设计了一种新的损失函数以确保时间一致性，在 SemanticKITTI 数据集上评估我们的方法并与领先的语义场景补全方法进行比较，结果表明 SLCF-Net 在所有的语义场景补全指标上表现出色，并展示出很好的时间一致性。

Abstract

We introduce slcf-net, a novel approach for the semantic scene completion (SSC) task that sequentially fuses lidar and camera data. It joi

slcf-net semantic scene completion lidar rgb images temporal consistency

发现论文，激发创造

S3CNet: 面向 LiDAR 点云的稀疏语义场景补全网络

本文提出了 S3CNet，一种基于稀疏卷积的神经网络，从统一的 LiDAR 点云中预测语义完成场景，并在 3D 任务上取得了最先进的结果

Dec, 2020

语义场景完成的三维门控循环融合

本文针对语义场景完成（SSC）任务中的数据融合问题进行了研究，我们提出了一种 3D 门控递归融合网络（GRFNet），其可以自适应地选择和融合来自深度和 RGB 图像的相关信息，并借助门控和记忆模块。基于单阶段融合，我们进一步提出了一种多阶段融合策略，并在两个基准数据集上进行了广泛的实验，证明了所提出的 GRFNet 在 SSC 中的数据融合方面具有卓越的性能和有效性。

Feb, 2020

来自单个深度图像的语义场景补全

本文针对通过单视图深度图来获取场景的完整三维体素表示和语义标签的语义场景完成任务，提出了一种端到端三维卷积神经网络 SSCNet，该网络能够同时输出所有摄像机视图锥体中体素的占用和语义标签。SSCNet 使用基于扩张的三维上下文模块来高效地扩展感受野并进行三维上下文学习。实验结果表明，该联合模型比各自解决每个任务的方法表现更好，并且在语义场景完成任务上优于替代方法。

Nov, 2016

基于注意力机制的多模态融合网络用于场景语义补全

本文提出了一种名为 AMFNet 的端到端三维卷积网络，用于从单视图 RGB-D 图像推断出体积三维场景的占用和语义标签。该网络通过融合 2D 语义分割和 3D 语义完成网络的经验以及空间维度的可靠深度线索，学习同时执行有效的 3D 场景完成和语义分割，验证表明在合成 SUNCG-RGBD 数据集和真实 NYUv2 数据集上都取得了明显的优越性。

Mar, 2020

SCFusion：基于语义完整性的实时增量场景重建

通过实时深度数据重建场景的完整三维模型存在遮挡缺失的问题。我们提出了一个基于深度图输入序列、支持实时增量和语义场景完成的框架，其中利用一种新颖的神经架构以及基于体素状态的方式来识别精确、高效的语义完成，并将其与全局三维模型相融合，从而最终达到精准高效的三维语义场景完整。

Oct, 2020

重新审视现实世界自主驾驶的多模态三维语义分割

CPGNet-LCF 是一个新的多模态融合框架，通过继承 CPGNet 的易于部署和实时能力来解决合并 LiDAR 和相机之间弱校准的挑战，在训练过程中引入一种新颖的弱校准知识蒸馏策略以提高其对弱校准的鲁棒性，实现了在 nuScenes 和 SemanticKITTI 基准测试上的最先进性能，并且可在单个 Tesla V100 GPU 上以 20ms 每帧的速度运行，进一步展示了我们提出的方法的鲁棒性。

Oct, 2023

基于摄像头的稀疏引导网络的三维语义场景补全

使用密集 - 稀疏 - 密集的设计，采用几何先验和占据信息，从语义感知和占据感知种子体素中扩散语义，实现基于相机的语义场景完成 (SSC) 框架。在 SemanticKITTI 数据集上的实验结果表明，该方法优于现有的最先进方法。

Dec, 2023

S4C：自我监督的神经场景补全

我们提出了一种名为 S4C 的第一种自我监督方法，不依赖于 3D 完整数据，能够从单张图像中重建场景，并且只依赖于视频和训练期间从现成图像分割网络生成的伪分割地面实况。与现有方法不同，我们将场景表示为隐式语义场，通过渲染为基础的自我监督损失训练我们的架构，取得了接近完全监督最新方法的性能，并且表现出强大的泛化能力，可以为远距离视点合成准确的分割地图。

Oct, 2023

MonoScene: 单目 3D 语义场景完成

MonoScene 提出了一种 3D 语义场景完成（SSC）框架，该框架从单个单眼 RGB 图像推断出场景的密集几何和语义，在 2D 和 3D UNets 的连续 2D 和 3D 特征投影的基础上引入了 3D 上下文关系先验以强制实现空间 - 语义一致性。与先前的研究不同的是，该框架在联合推断其语义的同时解决了 2D 到 3D 的场景重建问题。实验表明，我们在所有指标和数据集上均优于先前的研究，甚至能够虚构出超出镜头视野的逼真场景。

Dec, 2021

从 4D 动态点云序列进行语义完整场景预测

我们研究了语义完整场景预测（SCSF）的新问题，通过一个名为 SCSFNet 的新型网络，我们能够准确地预测未来帧的完整场景以及其语义标签。

Dec, 2023