CVT-Occ:用于3D占用预测的成本体积时间融合
本技术报告介绍了UniOCC解决方案,它采用空间几何约束和体积光线渲染来提高3D占用预测性能,从而在CVPR2023的nuScenes Open Dataset Challenge中获得了51.27%的mIoU,在3D占用注释成本方面具有很大的潜力。
Jun, 2023
本报告介绍了通过采用 Multi-Scale Occ 方法进行 3D 占用预测的方式,在 CVPR 2023 挑战赛中获得了第四名,并通过模型混合、测试时增强和类别敏感的阈值进一步提高了最终性能。
Jun, 2023
利用2D标签训练多视图3D占有模型,降低对昂贵的3D占有注释的依赖,并在实际应用中取得与使用3D标签全面监督的模型相当的性能。
Sep, 2023
探索3D场景的占据状态和语义的三维占据预测任务中,通过利用更强大的多模态模型在训练时指导视觉模型,提出了渲染辅助蒸馏的范例RadOcc,其中利用可微的体积渲染在透视视图中生成深度和语义图,并提出了两个新的一致性标准,即深度一致性损失和语义一致性损失,实验证明该方法在提高各种3D占据预测方法方面的有效性。
Dec, 2023
本文介绍了InverseMatrixVT3D方法,该方法通过使用两个投影矩阵将多视角图像特征转换为3D特征体,用于3D语义占有预测。该方法采用了矩阵乘法和稀疏矩阵处理技术,以高效地生成全局的鸟瞰图特征和局部的3D特征体。通过全局-局部注意融合模块以及多尺度监督机制进行性能提升。在nuScenes数据集上进行的综合实验证明了该方法的简洁和有效性。
Jan, 2024
通过利用2D标签,我们提出了一种基于神经辐射场(NeRF)的新方法来估计体素占据,结合时间渲染和占据流,进一步推进了体素占据预测,并且在该领域中取得了最先进的性能。
Feb, 2024
该研究论文介绍了OccFusion,一种直观高效的传感器融合框架,可用于预测三维占据情况。通过整合来自其他传感器(如激光雷达和环绕视图雷达)的特征,该框架提高了占据情况预测的准确性和稳健性,在nuScenes基准测试中取得了顶尖性能。
Mar, 2024
基于多传感器融合的3D占用预测方法OccFusion,使用无需深度估计的多模态融合以及相应的点云采样算法,通过主动训练方法和主动粗到细流程,提高了复杂场景中预测的准确性和鲁棒性,有效优化了计算资源需求。在开放占用评测中,该方法超过了现有基于多模态的最先进方法,并且训练和推理阶段更加高效。细致的消融研究证明了我们提出的技术的有效性。
Mar, 2024
本文提出了GEOcc,一种适用于仅使用视觉的全景视图感知的几何增强占用网络,它通过将环视图图像转换为密集的三维网格内的集成几何和语义表示来实现对三维占用的感知,解决了目前模型面临的两个主要挑战:在二维至三维视图变换阶段准确建模深度,以及由于稀疏的LiDAR监督引起的泛化问题的缺乏。
May, 2024
室内场景的相机三维占据预测在外部驾驶场景中近来引起了越来越多的关注,然而,在室内场景中的研究相对较少。这篇论文中,我们提出了一种名为ISO的新方法,用于使用单目图像预测室内场景的占据情况。ISO利用预训练的深度模型的优势来实现准确的深度预测。此外,我们在ISO中引入了双特征视线投影(D-FLoSP)模块,增强了三维体素特征的学习。为了促进该领域的进一步研究,我们介绍了Occ-ScanNet,一个用于室内场景的大规模占据基准。它的数据集大小比NYUv2数据集大40倍,为未来的可扩展室内场景分析研究提供了便利。在NYUv2和Occ-ScanNet上的实验结果表明,我们的方法达到了最先进的性能。数据集和代码已在此URL公开。
Jul, 2024