场景作为占用
我们提出了 OpenOcc,一种将 3D 场景重建和开放词汇理解与神经辐射场结合的新型框架。通过占位表示法对场景的几何结构进行建模,并通过体素渲染将预训练的开放词汇模型蒸馏为 3D 语言场,以实现零 - shot 推理。此外,我们提出了一种新颖的语义感知置信度传播(SCP)方法,以缓解由于蒸馏特征中不一致测量而引起的语言场表示退化问题。实验证明,我们的方法在 3D 场景理解任务中取得了有竞争力的性能,特别是对于小物体和长尾物体。
Mar, 2024
本研究提出了一种新的 3D 占据预测任务,旨在从多视图图像中估计对象的详细占据和语义信息,并介绍了 Coarse-to-Fine Occupancy (CTF-Occ) 网络模型,该模型在 3D 占据预测任务中表现出优越的性能。
Apr, 2023
本文介绍了一种名为 PanoOcc 的方法,它是一个基于相机的 3D 全景分割方法,它使用体素查询来聚合来自多帧和多视角图像的时空信息,并将特征学习和场景表示集成到一种全面的占用表示中,用于摄像机 3D 场景理解的统一占用表示,从而实现了更好的摄像机语义分割和全景分割结果,并且该方法可以很容易地扩展到密集的占用预测。
Jun, 2023
本文提出了 GEOcc,一种适用于仅使用视觉的全景视图感知的几何增强占用网络,它通过将环视图图像转换为密集的三维网格内的集成几何和语义表示来实现对三维占用的感知,解决了目前模型面临的两个主要挑战:在二维至三维视图变换阶段准确建模深度,以及由于稀疏的 LiDAR 监督引起的泛化问题的缺乏。
May, 2024
在自动驾驶中,通过分析网络效应和延迟,本文提出了一种名为 FastOcc 的新方法,通过用轻量级的 2D BEV 卷积网络代替时间消耗较大的 3D 卷积网络,加快模型的推理速度,同时保持准确性,从而实现了优越的性能。
Mar, 2024
本文介绍了 3D 实例分割中使用的 Occupancy Size 作为度量标准,以增强性能,并提出了一种基于 Occupancy Size 的 OccuSeg 实例分割方法,其利用多任务学习产生了占用信号和嵌入表示,并使用聚类方案鼓励正确聚类难样本,避免过度分割,是目前在 ScanNetV2、S3DIS 和 SceneNN 等 3 个真实数据集上表现最优秀的方法。
Mar, 2020
理解 3D 场景的演变对于自动驾驶决策至关重要。本文通过在 3D 占据空间中学习 OccWorld 世界模型,同时预测自车运动和周围场景的演变,提出了一种新的框架。实验证明了 OccWorld 在无需使用实例和地图监督的情况下具有有效建模驾驶场景演变的能力。
Nov, 2023
本技术报告介绍了 UniOCC 解决方案,它采用空间几何约束和体积光线渲染来提高 3D 占用预测性能,从而在 CVPR2023 的 nuScenes Open Dataset Challenge 中获得了 51.27%的 mIoU,在 3D 占用注释成本方面具有很大的潜力。
Jun, 2023
本文提出了一种自监督学习方法 SelfOcc,使用视频序列仅学习 3D 占用情况,通过将图像转换为 3D 空间来得到 3D 场景表示,并利用自监督信号优化这些表示。SelfOcc 在 SemanticKITTI 和 Occ3D 上使用单帧输入相比之前最佳方法 SceneRF 提高 58.7%,并且是首个在 Occ3D 上为周围摄像头产生合理的 3D 占用情况的自监督工作。SelfOcc 在 SemanticKITTI、KITTI-2015 和 nuScenes 上达到了最先进的结果,分别在新颖深度合成、单目深度估计和环视深度估计方面实现了高质量的深度。
Nov, 2023
自动驾驶领域的一项新兴感知任务是基于视觉的 3D 占用状态预测,该论文对其背景、挑战、研究进展和未来展望进行了综述,并提供了与该主题相关的论文、数据集和代码的收集。
May, 2024