VEON：词汇增补的占用预测

Jul, 2024

VEON: Vocabulary-Enhanced Occupancy Prediction

Jilai Zheng, Pin Tang, Zhongdao Wang, Guoqing Wang, Xiangxuan Ren...

TL;DRVEON是一种通过将预测的三维占用网格与开放世界语义相结合来提供三维占用的方法，它将2D基础模型MiDaS和CLIP结合起来，在解决深度模糊问题、提高像素级精度和优化长尾问题的同时，实现了在Occ3D-nuScenes上达到15.14的mIoU，并能识别具有开放词汇类别的对象。

Abstract

Perceiving the world as 3d occupancy supports embodied agents to avoid collision with any types of obstacle. While open-vocabulary image understanding has prospered recently, how to bind the predicted

发现论文，激发创造

OccuSeg：基于占据度感知的三维实例分割

本文介绍了3D实例分割中使用的Occupancy Size作为度量标准，以增强性能，并提出了一种基于Occupancy Size的OccuSeg实例分割方法，其利用多任务学习产生了占用信号和嵌入表示，并使用聚类方案鼓励正确聚类难样本，避免过度分割，是目前在ScanNetV2、S3DIS和SceneNN等3个真实数据集上表现最优秀的方法。

Mar, 2020

Occ3D：面向自动驾驶的大规模三维占据预测基准

本研究提出了一种新的3D占据预测任务，旨在从多视图图像中估计对象的详细占据和语义信息，并介绍了Coarse-to-Fine Occupancy(CTF-Occ)网络模型，该模型在3D占据预测任务中表现出优越的性能。

Apr, 2023

OVO: 开放词汇占用

本文提出了Open Vocabulary Occupancy (OVO)算法，通过知识蒸馏和像素-体素筛选两个关键步骤，可以对任意类别进行语义占据的预测，同时适用于大多数最先进的语义占据预测模型。在NYUv2和SemanticKITTI数据集上，OVO与有监督的方法相比具有竞争性的性能。

May, 2023

UniOcc: 基于几何和语义渲染的视觉中心化三维占据预测统一

本技术报告介绍了UniOCC解决方案，它采用空间几何约束和体积光线渲染来提高3D占用预测性能，从而在CVPR2023的nuScenes Open Dataset Challenge中获得了51.27％的mIoU，在3D占用注释成本方面具有很大的潜力。

Jun, 2023

RenderOcc: 基于图像渲染监督的视觉中心化3D占据预测

利用2D标签训练多视图3D占有模型，降低对昂贵的3D占有注释的依赖，并在实际应用中取得与使用3D标签全面监督的模型相当的性能。

Sep, 2023

RadOcc：通过渲染辅助蒸馏学习跨模态占位知识

探索3D场景的占据状态和语义的三维占据预测任务中，通过利用更强大的多模态模型在训练时指导视觉模型，提出了渲染辅助蒸馏的范例RadOcc，其中利用可微的体积渲染在透视视图中生成深度和语义图，并提出了两个新的一致性标准，即深度一致性损失和语义一致性损失，实验证明该方法在提高各种3D占据预测方法方面的有效性。

Dec, 2023

POP-3D：基于图像的开放词汇3D实占预测

我们描述了一种预测开放词汇的3D语义体素占用图的方法，该方法可实现对自由形式语言查询进行3D定位、分割和检索。我们设计了一种新的模型架构，包括2D-3D编码器、占用预测和3D语言头；开发了一种三模态自监督学习算法，利用图像、语言和LiDAR点云三种模态来训练所提出的架构；并在几个开放词汇任务上定量展示了所提出模型的优势。

Jan, 2024

OccFlowNet: 基于可微分渲染和占据流的自监督占据估计

通过利用2D标签，我们提出了一种基于神经辐射场（NeRF）的新方法来估计体素占据，结合时间渲染和占据流，进一步推进了体素占据预测，并且在该领域中取得了最先进的性能。

Feb, 2024

MonoOcc: 单目语义占据预测深入研究

提出了一种名为MonoOcc的方法，通过在框架的浅层引入辅助语义损失作为监督和利用图像条件下的交叉注意力模块来改进单目占据预测框架，并利用较低的硬件成本将时间信息和更丰富的知识从更大的图像主干传输到单目语义占据预测框架，从而取得了基于相机的SemanticKITTI场景完成基准测试中的最佳性能。

Mar, 2024

OpenOcc：基于占据表示的开放词汇量三维场景重建

我们提出了OpenOcc，一种将3D场景重建和开放词汇理解与神经辐射场结合的新型框架。通过占位表示法对场景的几何结构进行建模，并通过体素渲染将预训练的开放词汇模型蒸馏为3D语言场，以实现零-shot推理。此外，我们提出了一种新颖的语义感知置信度传播（SCP）方法，以缓解由于蒸馏特征中不一致测量而引起的语言场表示退化问题。实验证明，我们的方法在3D场景理解任务中取得了有竞争力的性能，特别是对于小物体和长尾物体。

Mar, 2024