UniOcc: 基于几何和语义渲染的视觉中心化三维占据预测统一
本文介绍了一种名为 PanoOcc 的方法,它是一个基于相机的 3D 全景分割方法,它使用体素查询来聚合来自多帧和多视角图像的时空信息,并将特征学习和场景表示集成到一种全面的占用表示中,用于摄像机 3D 场景理解的统一占用表示,从而实现了更好的摄像机语义分割和全景分割结果,并且该方法可以很容易地扩展到密集的占用预测。
Jun, 2023
本研究提出了一种新的 3D 占据预测任务,旨在从多视图图像中估计对象的详细占据和语义信息,并介绍了 Coarse-to-Fine Occupancy (CTF-Occ) 网络模型,该模型在 3D 占据预测任务中表现出优越的性能。
Apr, 2023
该研究论文提出了一种名为 Co-Occ 的新型多模态 LiDAR - 相机三维语义占据预测框架,通过显式 LiDAR - 相机特征融合和隐式体素渲染正则化,有效地处理了多模态语义占据预测中不同模态数据的异构性、错配性和互作不足问题,从而提高了三维语义占据预测的质量。
Apr, 2024
通过提出一种新的 3D Occupancy 表示法 (OccNet),并在 nuScenes 数据集上建立了 OpenOcc,我们方法能够有效地为多个驾驶任务提供有力的支持,并取得了显著的性能收益,例如运动规划可以实现 15%-58%的碰撞率降低。
Jun, 2023
利用 2D 标签训练多视图 3D 占有模型,降低对昂贵的 3D 占有注释的依赖,并在实际应用中取得与使用 3D 标签全面监督的模型相当的性能。
Sep, 2023
本文提出了 Open Vocabulary Occupancy (OVO) 算法,通过知识蒸馏和像素 - 体素筛选两个关键步骤,可以对任意类别进行语义占据的预测,同时适用于大多数最先进的语义占据预测模型。在 NYUv2 和 SemanticKITTI 数据集上,OVO 与有监督的方法相比具有竞争性的性能。
May, 2023
探索 3D 场景的占据状态和语义的三维占据预测任务中,通过利用更强大的多模态模型在训练时指导视觉模型,提出了渲染辅助蒸馏的范例 RadOcc,其中利用可微的体积渲染在透视视图中生成深度和语义图,并提出了两个新的一致性标准,即深度一致性损失和语义一致性损失,实验证明该方法在提高各种 3D 占据预测方法方面的有效性。
Dec, 2023
提出了一种名为 MonoOcc 的方法,通过在框架的浅层引入辅助语义损失作为监督和利用图像条件下的交叉注意力模块来改进单目占据预测框架,并利用较低的硬件成本将时间信息和更丰富的知识从更大的图像主干传输到单目语义占据预测框架,从而取得了基于相机的 SemanticKITTI 场景完成基准测试中的最佳性能。
Mar, 2024
本文提出了 GEOcc,一种适用于仅使用视觉的全景视图感知的几何增强占用网络,它通过将环视图图像转换为密集的三维网格内的集成几何和语义表示来实现对三维占用的感知,解决了目前模型面临的两个主要挑战:在二维至三维视图变换阶段准确建模深度,以及由于稀疏的 LiDAR 监督引起的泛化问题的缺乏。
May, 2024
本文提出了一种自监督学习方法 SelfOcc,使用视频序列仅学习 3D 占用情况,通过将图像转换为 3D 空间来得到 3D 场景表示,并利用自监督信号优化这些表示。SelfOcc 在 SemanticKITTI 和 Occ3D 上使用单帧输入相比之前最佳方法 SceneRF 提高 58.7%,并且是首个在 Occ3D 上为周围摄像头产生合理的 3D 占用情况的自监督工作。SelfOcc 在 SemanticKITTI、KITTI-2015 和 nuScenes 上达到了最先进的结果,分别在新颖深度合成、单目深度估计和环视深度估计方面实现了高质量的深度。
Nov, 2023