SOccDPT：在内存限制下训练的基于密集预测变换器的半监督三维语义占用

Nov, 2023

SOccDPT：在内存限制下训练的基于密集预测变换器的半监督三维语义占用

SOccDPT: Semi-Supervised 3D Semantic Occupancy from Dense Prediction Transformers trained under memory constraints

Aditya Nalgunda Ganesh

TL;DR我们提出了 SOccDPT，一种从单目图像输入中使用密集预测变换器进行 3D 语义占用预测的内存高效方法。我们通过对印度行驶数据集和班加罗尔行驶数据集等无结构数据集进行训练，解决了现有方法在结构化交通数据集训练时的局限性。我们的半监督训练流程通过减少手动标注的要求，使用伪基准真实标签代替，产生了我们的班加罗尔语义占用数据集。这种更广泛的训练增强了我们的模型在处理无结构交通场景方面的能力。为了克服训练过程中的内存限制，我们引入了分块训练，在每个时期选择一部分参数进行训练，减少了自动图构建过程中的内存使用。在无结构交通和内存受限的训练和推理环境中，SOccDPT 相对于现有的视差估计方法表现更好，RMSE 分数为 9.1473，语义分割 IoU 得分为 46.02%，并以竞争频率 69.47 Hz 工作。我们公开了代码和语义占用数据集。

Abstract

We present soccdpt, a memory-efficient approach for 3D semantic occupancy prediction from monocular image input using dense prediction transformers. To address the limitations of existing methods trained on struc

soccdpt 3d semantic occupancy prediction dense prediction transformers unstructured datasets memory usage

发现论文，激发创造

Occ3D：面向自动驾驶的大规模三维占据预测基准

本研究提出了一种新的 3D 占据预测任务，旨在从多视图图像中估计对象的详细占据和语义信息，并介绍了 Coarse-to-Fine Occupancy (CTF-Occ) 网络模型，该模型在 3D 占据预测任务中表现出优越的性能。

Apr, 2023

完全稀疏的三维全景占据预测

稀疏三维表示的实例感知的全稀疏全景占用网络 (SparseOcc) 通过稀疏的实例查询和基于掩模引导的稀疏采样，以及在先前 8 帧的时间建模的融合，实现了自主驾驶的占用预测，同时在 Occ3D-nus 数据集上达到了 26.0 的平均交并比 (mIoU)，并保持着 25.4 FPS 的实时推理速度。

Dec, 2023

SparseOcc（稀疏隐含表示）：重新考虑基于视觉的语义占用预测

提出了 SparseOcc，一种受稀疏点云处理启发的高效占据网络，利用了无损稀疏潜在表示的三个关键创新。通过空间分解的 3D 稀疏卷积核执行潜在补全的 3D 稀疏扩散器；通过特征金字塔和稀疏插值从其他尺度获取信息；将 Transformer 头改造为稀疏变种。SparseOcc 在 FLOP 上实现了惊人的 74.9% 减少，同时在精确度上有所提高。

Apr, 2024

SelfOcc: 自监督视觉 3D 占据预测

本文提出了一种自监督学习方法 SelfOcc，使用视频序列仅学习 3D 占用情况，通过将图像转换为 3D 空间来得到 3D 场景表示，并利用自监督信号优化这些表示。SelfOcc 在 SemanticKITTI 和 Occ3D 上使用单帧输入相比之前最佳方法 SceneRF 提高 58.7％，并且是首个在 Occ3D 上为周围摄像头产生合理的 3D 占用情况的自监督工作。SelfOcc 在 SemanticKITTI、KITTI-2015 和 nuScenes 上达到了最先进的结果，分别在新颖深度合成、单目深度估计和环视深度估计方面实现了高质量的深度。

Nov, 2023

MonoOcc: 单目语义占据预测深入研究

提出了一种名为 MonoOcc 的方法，通过在框架的浅层引入辅助语义损失作为监督和利用图像条件下的交叉注意力模块来改进单目占据预测框架，并利用较低的硬件成本将时间信息和更丰富的知识从更大的图像主干传输到单目语义占据预测框架，从而取得了基于相机的 SemanticKITTI 场景完成基准测试中的最佳性能。

Mar, 2024

UniOcc: 基于几何和语义渲染的视觉中心化三维占据预测统一

本技术报告介绍了 UniOCC 解决方案，它采用空间几何约束和体积光线渲染来提高 3D 占用预测性能，从而在 CVPR2023 的 nuScenes Open Dataset Challenge 中获得了 51.27％的 mIoU，在 3D 占用注释成本方面具有很大的潜力。

Jun, 2023

使用内存高效稀疏卷积的自动驾驶实时三维语义占位预测

自动驾驶车辆中，实时理解自身车辆周围的三维环境至关重要。本文介绍一种从前视二维相机图像和 LiDAR 扫描中提取特征并使用稀疏卷积网络（Minkowski Engine）进行三维语义占用预测的方法，以解决实时应用中的高计算需求和稀疏场景完整性的问题。

Mar, 2024

占用 DETR: 让语义场景补全像目标检测一样简单

我们提出了一种新的 3D 语义占有率感知方法 OccupancyDETR，它包括一个类 DETR 的目标检测模块和一个 3D 占有率解码器模块，通过集成目标检测简化了我们的方法结构，提高了速度和性能，在 SemanticKITTI 数据集上展示了在实时 3D 语义场景完成方面的有效性。

Sep, 2023

OccFormer: 双路径 Transformer 用于基于视觉的 3D 语义占用预测

本文介绍了 OccFormer，一种双路径 Transformer 网络，有效地处理了用于自主驾驶的 3D 立体体素特征，并在 SemanticKITTI 数据集上对语义完整性和 nuScenes 数据集上的 LiDAR 语义分割方面优于现有方法。

Apr, 2023

OccTransformer：改进 BEVFormer 以用于 3D 仅相机空间占用预测

我们的研究论文提出了一种名为 “occTransformer” 的解决方案，用于 CVPR 2023 的自动驾驶挑战中的 3D 占据预测。该方法基于强大的基准模型 BEVFormer，并通过几种简单但有效的技术来提高其性能。

Feb, 2024