UniVision：一个统一的面向视觉中心的 3D 感知框架

Jan, 2024

UniVision：一个统一的面向视觉中心的 3D 感知框架

UniVision: A Unified Framework for Vision-Centric 3D Perception

Yu Hong, Qian Liu, Huayuan Cheng, Danjiao Ma, Hang Dai...

TL;DRUniVision 是一个简单高效的框架，统一了视觉导向的自动驾驶中的三维感知任务，包括占有率预测和物体检测，并在各项公开基准测试中取得了领先的结果。

Abstract

The past few years have witnessed the rapid development of vision-centric 3D perception in autonomous driving. Although the 3D perception models share many structural and conceptual similarities, there still exist gaps in their feature representations, data formats, and objectives, posing challenges for unified and efficient 3D perception →

vision-centric 3d perception univision occupancy prediction object detection framework design

发现论文，激发创造

Uni3D: 多数据集三维物体检测的统一基线

该论文研究了如何训练一个来自多个数据集的统一 3D 检测器，提出了一种名为 Uni3D 的方法来解决数据级别和分类学级别的差异，证明了该方法的有效性并对进一步的 3D 泛化研究具有启发意义。

Mar, 2023

UniOcc: 基于几何和语义渲染的视觉中心化三维占据预测统一

本技术报告介绍了 UniOCC 解决方案，它采用空间几何约束和体积光线渲染来提高 3D 占用预测性能，从而在 CVPR2023 的 nuScenes Open Dataset Challenge 中获得了 51.27％的 mIoU，在 3D 占用注释成本方面具有很大的潜力。

Jun, 2023

自主驾驶中基于视觉的三维占用预测：综述与展望

自动驾驶领域的一项新兴感知任务是基于视觉的 3D 占用状态预测，该论文对其背景、挑战、研究进展和未来展望进行了综述，并提供了与该主题相关的论文、数据集和代码的收集。

May, 2024

UniMODE：统一单目三维物体检测

通过基于鸟瞰（BEV）检测范式的显式特征投影、经典 BEV 检测架构的拆分、不均匀的 BEV 网格设计、稀疏的 BEV 特征投影策略和统一的域对齐方法等技术，派生出了统一的检测器 UniMODE，其在挑战性的 Omni3D 数据集上超过了先前的最新技术，实现了首个 BEV 检测器对统一 3D 物体检测的成功推广。

Feb, 2024

OccFusion: 一个简单有效的多传感器融合框架用于 3D 占用预测

该研究论文介绍了 OccFusion，一种直观高效的传感器融合框架，可用于预测三维占据情况。通过整合来自其他传感器（如激光雷达和环绕视图雷达）的特征，该框架提高了占据情况预测的准确性和稳健性，在 nuScenes 基准测试中取得了顶尖性能。

Mar, 2024

一个用于密集视觉预测解决方案的香草式多任务框架 —— 第一届 VCL 挑战赛 —— 多任务鲁棒性分科

我们提出的 UniNet 框架可以将 DETR3D、Mask2Former 和 BinsFormer 无缝地结合到一个多任务模型中，实现多任务鲁棒性，并在 1st Visual Continual Learning（VCL）挑战的多任务鲁棒性领域取得了显著性能。

Feb, 2024

一个统一的基于点的 3D 分割框架

针对 3D 点云的分割问题，我们提出了一种新的点云分割框架，该框架能有效地优化整个场景的像素级特征，几何结构和全局上下文先验。实验结果表明，该方法优于现有的一些最先进的方法，并探讨了在三维重建场景中合成相机姿态以获得更高的性能。

Aug, 2019

UniM-OV3D：使用细粒度特征表示的单模态开放词汇三维场景理解

本文提出了一种统一的多模态三维开放词汇场景理解网络 (UniM-OV3D)，通过对齐点云、图像、语言和深度信息，设计了一个分层点云特征提取模块并使用了层次化三维标题对来提高粗到细点云语义表示学习，实验结果表明我们的方法在室内外基准测试中实现了开放式语义和实例分割的最先进性能。

Jan, 2024

基于全景分割引导的 LiDAR 多视角三维物体检测通用框架

本研究提出了一种利用分割信息指导检测过程的多任务框架，该框架联合执行三维物体检测和全景分割，可利用多视角信息解决每个投影视图的缺陷，并通过前景语义信息和中心密度热力图来提示物体的可能框中心位置。在 nuScenes 数据集上进行的大量实验表明，该方法提供了显著的性能提升，基于单级 CenterPoint 3D 物体检测网络的所提出方法在 nuScenes 3D 检测基准上取得了 67.3 NDS 的最新性能。

Mar, 2022

PanoOcc：面向基于相机的三维全景分割的统一占据表示

本文介绍了一种名为 PanoOcc 的方法，它是一个基于相机的 3D 全景分割方法，它使用体素查询来聚合来自多帧和多视角图像的时空信息，并将特征学习和场景表示集成到一种全面的占用表示中，用于摄像机 3D 场景理解的统一占用表示，从而实现了更好的摄像机语义分割和全景分割结果，并且该方法可以很容易地扩展到密集的占用预测。

Jun, 2023