利用色彩和深度的语义场景完整性:初步实验
本文针对通过单视图深度图来获取场景的完整三维体素表示和语义标签的语义场景完成任务,提出了一种端到端三维卷积神经网络 SSCNet,该网络能够同时输出所有摄像机视图锥体中体素的占用和语义标签。SSCNet 使用基于扩张的三维上下文模块来高效地扩展感受野并进行三维上下文学习。实验结果表明,该联合模型比各自解决每个任务的方法表现更好,并且在语义场景完成任务上优于替代方法。
Nov, 2016
本文提出了一种基于几何学的策略来将深度信息与低分辨率体素表示相结合,通过 3D 素描感知特征嵌入编码几何信息并采用半监督先验学习策略来引导占用推理和语义标签的推断,该方案在三个公共基准测试中一致优于现有技术。
Mar, 2020
基于单目摄像机的三维语义场景完成研究,提出了 DepthSSC 方法,通过 ST-GF 模块和几何感知体素化相结合,动态调整体素分辨率,考虑三维空间的几何复杂性,以确保空间与深度信息的精确对齐,成功解决了以往方法中存在的空间错位和畸变问题。通过在 SemanticKITTI 数据集上的评估,DepthSSC 不仅表现出在捕捉复杂的三维结构细节方面的有效性,还取得了最先进的性能。我们相信 DepthSSC 为基于单目摄像机的三维语义场景完成研究提供了新的视角,并希望它能激发更多相关研究。
Nov, 2023
本文介绍一种新策略,通过边缘检测和翻转截断有符号距离来在 3D 空间中编码颜色信息,同时提出了 EdgeNet,一种能够处理深度和边缘信息的新型端到端神经网络结构,实验结果表明该方法相比现有技术在真实数据上提高了 6.9 % 的性能表现。
Aug, 2019
本文针对语义场景完成(SSC)任务中的数据融合问题进行了研究,我们提出了一种 3D 门控递归融合网络(GRFNet),其可以自适应地选择和融合来自深度和 RGB 图像的相关信息,并借助门控和记忆模块。基于单阶段融合,我们进一步提出了一种多阶段融合策略,并在两个基准数据集上进行了广泛的实验,证明了所提出的 GRFNet 在 SSC 中的数据融合方面具有卓越的性能和有效性。
Feb, 2020
MonoScene 提出了一种 3D 语义场景完成(SSC)框架,该框架从单个单眼 RGB 图像推断出场景的密集几何和语义,在 2D 和 3D UNets 的连续 2D 和 3D 特征投影的基础上引入了 3D 上下文关系先验以强制实现空间 - 语义一致性。与先前的研究不同的是,该框架在联合推断其语义的同时解决了 2D 到 3D 的场景重建问题。实验表明,我们在所有指标和数据集上均优于先前的研究,甚至能够虚构出超出镜头视野的逼真场景。
Dec, 2021
使用密集 - 稀疏 - 密集的设计,采用几何先验和占据信息,从语义感知和占据感知种子体素中扩散语义,实现基于相机的语义场景完成 (SSC) 框架。在 SemanticKITTI 数据集上的实验结果表明,该方法优于现有的最先进方法。
Dec, 2023
本文提出了一种实时语义场景完整方法,具有特征聚合策略和条件预测模块,通过特征聚合和两步预测方案来提高语义场景完整预测性能。在三个基准测试上进行实验,并在一个 GTX 1080 Ti GPU 上以每秒 110 帧的速度取得了有竞争力的性能。
Mar, 2023
我们提出了一种名为 S4C 的第一种自我监督方法,不依赖于 3D 完整数据,能够从单张图像中重建场景,并且只依赖于视频和训练期间从现成图像分割网络生成的伪分割地面实况。与现有方法不同,我们将场景表示为隐式语义场,通过渲染为基础的自我监督损失训练我们的架构,取得了接近完全监督最新方法的性能,并且表现出强大的泛化能力,可以为远距离视点合成准确的分割地图。
Oct, 2023