Panoptic-FlashOcc: 通过实例中心将语义空间与全景融合的高效基准
本文介绍了一种名为 PanoOcc 的方法,它是一个基于相机的 3D 全景分割方法,它使用体素查询来聚合来自多帧和多视角图像的时空信息,并将特征学习和场景表示集成到一种全面的占用表示中,用于摄像机 3D 场景理解的统一占用表示,从而实现了更好的摄像机语义分割和全景分割结果,并且该方法可以很容易地扩展到密集的占用预测。
Jun, 2023
稀疏三维表示的实例感知的全稀疏全景占用网络 (SparseOcc) 通过稀疏的实例查询和基于掩模引导的稀疏采样,以及在先前 8 帧的时间建模的融合,实现了自主驾驶的占用预测,同时在 Occ3D-nus 数据集上达到了 26.0 的平均交并比 (mIoU),并保持着 25.4 FPS 的实时推理速度。
Dec, 2023
通过在三维体素场景中进行全景分割的研究,我们提出了一种实例感知的占据网格模型 PanoSSC,可以有效地提取单个对象,将几何重建、三维语义分割和三维实例分割统一到 PanoSSC 框架中,并提出了用于评估全景体素的新指标。在 SemanticKITTI 语义场景完成基准测试中,我们的方法取得了有竞争力的结果。
Jun, 2024
提出了一种名为 FlashOCC 的插拔式预测框架,用于在维持高精度的同时实现快速和内存高效的占据预测,通过在 BEV 中保留特征并引入通道到高度的转换,相比现有方法在精度、运行时效率和内存开销等方面表现出更高的优势,展示了其在部署中的潜力。
Nov, 2023
提出了一种名为 MonoOcc 的方法,通过在框架的浅层引入辅助语义损失作为监督和利用图像条件下的交叉注意力模块来改进单目占据预测框架,并利用较低的硬件成本将时间信息和更丰富的知识从更大的图像主干传输到单目语义占据预测框架,从而取得了基于相机的 SemanticKITTI 场景完成基准测试中的最佳性能。
Mar, 2024
本技术报告介绍了 UniOCC 解决方案,它采用空间几何约束和体积光线渲染来提高 3D 占用预测性能,从而在 CVPR2023 的 nuScenes Open Dataset Challenge 中获得了 51.27%的 mIoU,在 3D 占用注释成本方面具有很大的潜力。
Jun, 2023
通过提出一种新的 3D Occupancy 表示法 (OccNet),并在 nuScenes 数据集上建立了 OpenOcc,我们方法能够有效地为多个驾驶任务提供有力的支持,并取得了显著的性能收益,例如运动规划可以实现 15%-58%的碰撞率降低。
Jun, 2023
提出了一种高效的三维占据网络 (EFFOcc),通过使用简单的 2D 算子和两阶段主动学习策略,最小化网络复杂性和标注要求,实现了业界领先的准确性,并支持改进的视觉占据预测。
Jun, 2024
本研究提出了一种新的 3D 占据预测任务,旨在从多视图图像中估计对象的详细占据和语义信息,并介绍了 Coarse-to-Fine Occupancy (CTF-Occ) 网络模型,该模型在 3D 占据预测任务中表现出优越的性能。
Apr, 2023
在自动驾驶中,通过分析网络效应和延迟,本文提出了一种名为 FastOcc 的新方法,通过用轻量级的 2D BEV 卷积网络代替时间消耗较大的 3D 卷积网络,加快模型的推理速度,同时保持准确性,从而实现了优越的性能。
Mar, 2024