UniVision:一个统一的面向视觉中心的 3D 感知框架
该论文研究了如何训练一个来自多个数据集的统一 3D 检测器,提出了一种名为 Uni3D 的方法来解决数据级别和分类学级别的差异,证明了该方法的有效性并对进一步的 3D 泛化研究具有启发意义。
Mar, 2023
本技术报告介绍了 UniOCC 解决方案,它采用空间几何约束和体积光线渲染来提高 3D 占用预测性能,从而在 CVPR2023 的 nuScenes Open Dataset Challenge 中获得了 51.27%的 mIoU,在 3D 占用注释成本方面具有很大的潜力。
Jun, 2023
自动驾驶领域的一项新兴感知任务是基于视觉的 3D 占用状态预测,该论文对其背景、挑战、研究进展和未来展望进行了综述,并提供了与该主题相关的论文、数据集和代码的收集。
May, 2024
通过基于鸟瞰(BEV)检测范式的显式特征投影、经典 BEV 检测架构的拆分、不均匀的 BEV 网格设计、稀疏的 BEV 特征投影策略和统一的域对齐方法等技术,派生出了统一的检测器 UniMODE,其在挑战性的 Omni3D 数据集上超过了先前的最新技术,实现了首个 BEV 检测器对统一 3D 物体检测的成功推广。
Feb, 2024
该研究论文介绍了 OccFusion,一种直观高效的传感器融合框架,可用于预测三维占据情况。通过整合来自其他传感器(如激光雷达和环绕视图雷达)的特征,该框架提高了占据情况预测的准确性和稳健性,在 nuScenes 基准测试中取得了顶尖性能。
Mar, 2024
我们提出的 UniNet 框架可以将 DETR3D、Mask2Former 和 BinsFormer 无缝地结合到一个多任务模型中,实现多任务鲁棒性,并在 1st Visual Continual Learning(VCL)挑战的多任务鲁棒性领域取得了显著性能。
Feb, 2024
针对 3D 点云的分割问题,我们提出了一种新的点云分割框架,该框架能有效地优化整个场景的像素级特征,几何结构和全局上下文先验。实验结果表明,该方法优于现有的一些最先进的方法,并探讨了在三维重建场景中合成相机姿态以获得更高的性能。
Aug, 2019
本文提出了一种统一的多模态三维开放词汇场景理解网络 (UniM-OV3D),通过对齐点云、图像、语言和深度信息,设计了一个分层点云特征提取模块并使用了层次化三维标题对来提高粗到细点云语义表示学习,实验结果表明我们的方法在室内外基准测试中实现了开放式语义和实例分割的最先进性能。
Jan, 2024
本研究提出了一种利用分割信息指导检测过程的多任务框架,该框架联合执行三维物体检测和全景分割,可利用多视角信息解决每个投影视图的缺陷,并通过前景语义信息和中心密度热力图来提示物体的可能框中心位置。在 nuScenes 数据集上进行的大量实验表明,该方法提供了显著的性能提升,基于单级 CenterPoint 3D 物体检测网络的所提出方法在 nuScenes 3D 检测基准上取得了 67.3 NDS 的最新性能。
Mar, 2022
本文介绍了一种名为 PanoOcc 的方法,它是一个基于相机的 3D 全景分割方法,它使用体素查询来聚合来自多帧和多视角图像的时空信息,并将特征学习和场景表示集成到一种全面的占用表示中,用于摄像机 3D 场景理解的统一占用表示,从而实现了更好的摄像机语义分割和全景分割结果,并且该方法可以很容易地扩展到密集的占用预测。
Jun, 2023