基于前后向视点变换的三维占据预测
在自动驾驶中,通过分析网络效应和延迟,本文提出了一种名为 FastOcc 的新方法,通过用轻量级的 2D BEV 卷积网络代替时间消耗较大的 3D 卷积网络,加快模型的推理速度,同时保持准确性,从而实现了优越的性能。
Mar, 2024
通过采用自适应前视转换和流建模的双阶段框架,我们提出了一种创新的方法,以增强 3D 占用和流的预测能力。我们首先独立训练占用模型,然后使用连续帧集成进行流预测。我们的方法将回归与分类相结合,以解决不同场景中的尺度变化,并利用预测的流将当前体素特征扭曲到未来帧,由未来帧的真值引导。在 nuScenes 数据集上的实验结果表明,我们的方法在准确性和鲁棒性方面取得了显著的改进,展示了我们方法在真实环境下的有效性。基于 Swin-Base 的单一模型在公共排行榜上排名第二,验证了我们方法在推进自动驾驶车辆感知系统方面的潜力。
Jul, 2024
本文提出了一种自监督学习方法 SelfOcc,使用视频序列仅学习 3D 占用情况,通过将图像转换为 3D 空间来得到 3D 场景表示,并利用自监督信号优化这些表示。SelfOcc 在 SemanticKITTI 和 Occ3D 上使用单帧输入相比之前最佳方法 SceneRF 提高 58.7%,并且是首个在 Occ3D 上为周围摄像头产生合理的 3D 占用情况的自监督工作。SelfOcc 在 SemanticKITTI、KITTI-2015 和 nuScenes 上达到了最先进的结果,分别在新颖深度合成、单目深度估计和环视深度估计方面实现了高质量的深度。
Nov, 2023
本研究提出了一种新的 3D 占据预测任务,旨在从多视图图像中估计对象的详细占据和语义信息,并介绍了 Coarse-to-Fine Occupancy (CTF-Occ) 网络模型,该模型在 3D 占据预测任务中表现出优越的性能。
Apr, 2023
自动驾驶领域的一项新兴感知任务是基于视觉的 3D 占用状态预测,该论文对其背景、挑战、研究进展和未来展望进行了综述,并提供了与该主题相关的论文、数据集和代码的收集。
May, 2024
通过设计 3D 解码器来利用多视图图像的鸟瞰图(BEV)特征预测 3D 场景的占位情况,为多摄像头智能驾驶提供了一种先进的、可行的和经济高效的解决方案,并取得了显着提升的结果。
May, 2023
本技术报告介绍了 UniOCC 解决方案,它采用空间几何约束和体积光线渲染来提高 3D 占用预测性能,从而在 CVPR2023 的 nuScenes Open Dataset Challenge 中获得了 51.27%的 mIoU,在 3D 占用注释成本方面具有很大的潜力。
Jun, 2023
本文提出了 GEOcc,一种适用于仅使用视觉的全景视图感知的几何增强占用网络,它通过将环视图图像转换为密集的三维网格内的集成几何和语义表示来实现对三维占用的感知,解决了目前模型面临的两个主要挑战:在二维至三维视图变换阶段准确建模深度,以及由于稀疏的 LiDAR 监督引起的泛化问题的缺乏。
May, 2024
我们的研究论文提出了一种名为 “occTransformer” 的解决方案,用于 CVPR 2023 的自动驾驶挑战中的 3D 占据预测。该方法基于强大的基准模型 BEVFormer,并通过几种简单但有效的技术来提高其性能。
Feb, 2024
通过提出一种新的 3D Occupancy 表示法 (OccNet),并在 nuScenes 数据集上建立了 OpenOcc,我们方法能够有效地为多个驾驶任务提供有力的支持,并取得了显著的性能收益,例如运动规划可以实现 15%-58%的碰撞率降低。
Jun, 2023