PanoSSC：探索用于自动驾驶的单目全景三维场景重构

Jun, 2024

PanoSSC：探索用于自动驾驶的单目全景三维场景重构

PanoSSC: Exploring Monocular Panoptic 3D Scene Reconstruction for Autonomous Driving

Yining Shi, Jiusi Li, Kun Jiang, Ke Wang, Yunlong Wang...

TL;DR通过在三维体素场景中进行全景分割的研究，我们提出了一种实例感知的占据网格模型 PanoSSC，可以有效地提取单个对象，将几何重建、三维语义分割和三维实例分割统一到 PanoSSC 框架中，并提出了用于评估全景体素的新指标。在 SemanticKITTI 语义场景完成基准测试中，我们的方法取得了有竞争力的结果。

Abstract

vision-centric occupancy networks, which represent the surrounding environment with uniform voxels with semantics, have become a new trend for safe driving of →

vision-centric occupancy networks safe driving camera-only autonomous driving perception systems panoptic segmentation panossc

发现论文，激发创造

PanoOcc：面向基于相机的三维全景分割的统一占据表示

本文介绍了一种名为 PanoOcc 的方法，它是一个基于相机的 3D 全景分割方法，它使用体素查询来聚合来自多帧和多视角图像的时空信息，并将特征学习和场景表示集成到一种全面的占用表示中，用于摄像机 3D 场景理解的统一占用表示，从而实现了更好的摄像机语义分割和全景分割结果，并且该方法可以很容易地扩展到密集的占用预测。

Jun, 2023

PaSCo：具有不确定性感知的城市 3D 全景场景补全

我们提出了全景场景完成（PSC）的任务，它扩展了最近流行的语义场景完成（SSC）任务，通过实例级别的信息产生对三维场景的更丰富理解。我们的 PSC 提议利用基于蒙版的混合技术处理来自稀疏多尺度完成的非空体素。与 SSC 文献忽略机器人应用中至关重要的不确定性不同，我们提出了一种有效的集成方法来估计体素和实例的不确定性，同时提高性能并获得更好的不确定性，且计算成本较低。此外，我们引入了一种聚合排列不变蒙版预测的技术。我们的实验证明，我们的方法在全景场景完成和不确定性估计方面优于所有基线算法，且在三个大规模自动驾驶数据集上进行了测试。我们的代码和数据可在此 https URL 中获取。

Dec, 2023

完全稀疏的三维全景占据预测

稀疏三维表示的实例感知的全稀疏全景占用网络 (SparseOcc) 通过稀疏的实例查询和基于掩模引导的稀疏采样，以及在先前 8 帧的时间建模的融合，实现了自主驾驶的占用预测，同时在 Occ3D-nus 数据集上达到了 26.0 的平均交并比 (mIoU)，并保持着 25.4 FPS 的实时推理速度。

Dec, 2023

DepthSSC: 深度空间对齐和动态体素分辨率的单目三维语义场景补全

基于单目摄像机的三维语义场景完成研究，提出了 DepthSSC 方法，通过 ST-GF 模块和几何感知体素化相结合，动态调整体素分辨率，考虑三维空间的几何复杂性，以确保空间与深度信息的精确对齐，成功解决了以往方法中存在的空间错位和畸变问题。通过在 SemanticKITTI 数据集上的评估，DepthSSC 不仅表现出在捕捉复杂的三维结构细节方面的有效性，还取得了最先进的性能。我们相信 DepthSSC 为基于单目摄像机的三维语义场景完成研究提供了新的视角，并希望它能激发更多相关研究。

Nov, 2023

场景作为占用

通过提出一种新的 3D Occupancy 表示法 (OccNet)，并在 nuScenes 数据集上建立了 OpenOcc，我们方法能够有效地为多个驾驶任务提供有力的支持，并取得了显著的性能收益，例如运动规划可以实现 15％-58％的碰撞率降低。

Jun, 2023

MonoOcc: 单目语义占据预测深入研究

提出了一种名为 MonoOcc 的方法，通过在框架的浅层引入辅助语义损失作为监督和利用图像条件下的交叉注意力模块来改进单目占据预测框架，并利用较低的硬件成本将时间信息和更丰富的知识从更大的图像主干传输到单目语义占据预测框架，从而取得了基于相机的 SemanticKITTI 场景完成基准测试中的最佳性能。

Mar, 2024

SelfOcc: 自监督视觉 3D 占据预测

本文提出了一种自监督学习方法 SelfOcc，使用视频序列仅学习 3D 占用情况，通过将图像转换为 3D 空间来得到 3D 场景表示，并利用自监督信号优化这些表示。SelfOcc 在 SemanticKITTI 和 Occ3D 上使用单帧输入相比之前最佳方法 SceneRF 提高 58.7％，并且是首个在 Occ3D 上为周围摄像头产生合理的 3D 占用情况的自监督工作。SelfOcc 在 SemanticKITTI、KITTI-2015 和 nuScenes 上达到了最先进的结果，分别在新颖深度合成、单目深度估计和环视深度估计方面实现了高质量的深度。

Nov, 2023

基于摄像头的稀疏引导网络的三维语义场景补全

使用密集 - 稀疏 - 密集的设计，采用几何先验和占据信息，从语义感知和占据感知种子体素中扩散语义，实现基于相机的语义场景完成 (SSC) 框架。在 SemanticKITTI 数据集上的实验结果表明，该方法优于现有的最先进方法。

Dec, 2023

利用开放词汇的实例分割实现无监督全景重建

从场景的 RGB-D 图像中，我们提出了一种零样本全景重建方法，该方法利用开放词汇实例分割并利用密集广义特征传播部分标签和构建 3D 实例图进行关联来解决场景的全景分割和实例关联挑战。

Jul, 2024

基于半监督结构先验的 3D 草图感知语义场景补全

本文提出了一种基于几何学的策略来将深度信息与低分辨率体素表示相结合，通过 3D 素描感知特征嵌入编码几何信息并采用半监督先验学习策略来引导占用推理和语义标签的推断，该方案在三个公共基准测试中一致优于现有技术。

Mar, 2020