自动驾驶多模态三维语义分割 MSeg3D

CVPRMar, 2023

自动驾驶多模态三维语义分割 MSeg3D

MSeg3D: Multi-modal 3D Semantic Segmentation for Autonomous Driving

PDF

Jiale Li, Hang Dai, Hao Han, Yong Ding

TL;DR利用多模态数据的几何和语义特征，通过三个步骤来完成多模态 3D 语义分割任务。经过我们的研究，MSeg3D 在 nuScenes、Waymo 和 SemanticKITTI 数据集上取得了最先进的结果。

Abstract

lidar and camera are two modalities available for 3d semantic segmentation in autonomous driving. The popular →

lidar camera 3d semantic segmentation modality heterogeneity multi-modal data augmentation

发现论文，激发创造

多模态高效数据驱动的自动驾驶三维场景理解

在自动驾驶中，高效利用数据对于推进 3D 场景理解至关重要。我们的研究在 LiDAR 语义分割上扩展了半监督学习，利用行驶场景的内在空间先验和多传感器互补来增强无标注数据集的有效性。我们引入了 LaserMix++，这是一个进化的框架，结合了来自不同 LiDAR 扫描的激光束操作，并结合了 LiDAR - 相机对应关系，进一步辅助高效学习。我们的框架旨在通过整合多模态（包括：1）用于细粒度交叉传感器相互作用的多模态 LaserMix 操作；2）增强 LiDAR 特征学习的相机到 LiDAR 特征提炼；和 3）使用开放词汇模型生成辅助监督的语言驱动知识引导）来增强 3D 场景一致性正则化。LaserMix++ 的多功能性使其适用于 LiDAR 表示的各种应用，确立了其作为一种普遍适用的解决方案。通过理论分析和对流行驾驶感知数据集的广泛实验，我们对我们的框架进行了严格验证。结果显示，LaserMix++ 明显优于完全监督的替代方案，在只使用五分之一的注释数据的情况下实现了可比较的准确性，并显著改善了仅使用监督的基准线。这一重大进展突显了半监督方法在减少对标记数据的依赖方面对基于 LiDAR 的 3D 场景理解系统的潜力。

May, 2024

感知感知多传感器融合用于 3D LiDAR 语义分割

本文章提出了一种基于感知信息的多传感器融合策略（PMF），用于自动驾驶等应用中的 3D LiDAR 语义分割，通过两个模态的外观和空间深度信息进行感知信息融合并且提出了感知相关的损失函数用于衡量两种模式之间的差异性，实验结果证明了该方法的优越性。

Jun, 2021

重新审视现实世界自主驾驶的多模态三维语义分割

CPGNet-LCF 是一个新的多模态融合框架，通过继承 CPGNet 的易于部署和实时能力来解决合并 LiDAR 和相机之间弱校准的挑战，在训练过程中引入一种新颖的弱校准知识蒸馏策略以提高其对弱校准的鲁棒性，实现了在 nuScenes 和 SemanticKITTI 基准测试上的最先进性能，并且可在单个 Tesla V100 GPU 上以 20ms 每帧的速度运行，进一步展示了我们提出的方法的鲁棒性。

Oct, 2023

基于 RGB 和 LiDAR 融合的自动驾驶 3D 语义分割

本文旨在研究基于传感器融合技术的三维语义分割，将 RGB 图像转化为 LiDAR 所使用的极坐标网格映射表示，并设计了早期和中期融合架构，同时提出了融合两种算法的混合融合结构。在 KITTI 数据集中评估了所提出算法的效果，并相对于仅使用 LiDAR 的基线模型，在两种最先进的算法 SqueezeSeg 和 PointSeg 上分别提高了 10% 的分割精度。

Jun, 2019

MSMDFusion: 多尺度深度种子融合 LiDAR 和摄像头进行 3D 物体检测

基于激光雷达和摄像头信息的融合对于实现自动驾驶系统中的准确可靠的三维物体检测至关重要。在该文中，提出了一种新颖的框架，其中利用了深度信息和激光雷达与摄像头之间的交互，实现更全面的多模态融合特征，并在 nuScenes 测试基准中取得了最新的 3D 目标检测结果，同时无需使用测试时间增广和集成技术。

Sep, 2022

多模态多任务 (3MT) 道路分割

该研究提出了一种成本效益高且精确的道路分割解决方案，通过在多任务学习架构中整合来自多个传感器的数据，利用多模态系统比单模态系统能够产生更可靠的结果，使用原始传感器输入而非高预处理成本的架构，同时将 RGB 和 LiDAR 深度图像作为网络的输入，与 IMU/GNSS 惯性导航系统数据进行聚合，实验证明该方法在 KITTI 数据集和 Cityscapes 数据集上都取得了快速且高性能的解决方案，可以与不同的传感器模态一起使用，推理时间非常适合实时实验。

Aug, 2023

3D 语义分割驱动的三维物体检测表征

在自动驾驶中，相较于 2D 检测，3D 检测能够提供更精确的信息用于路径规划和运动估计。然而，由于缺乏几何信息，单一和多视角图像以及来自相机的深度图在检测精度上相对较低。本文提出了 SeSame：一种基于点的语义特征的新表达方法，以确保基于 LiDAR 的 3D 检测具有充足的语义信息。实验证明，我们的方法在 KITTI 物体检测基准测试中在不同难度级别和车辆上优于以前的最先进方法。

Mar, 2024

一个广义的多模型融合检测框架

本文提出了一种名为 MMFusion 的多模态 3D 检测框架，以在复杂场景中实现 LiDAR 和图像的准确融合，通过实验证明，该框架不仅优于现有基准，而且尤其适用于在 KITTI 基准上检测骑自行车和行人。

Mar, 2023

mmFUSION: 三维物体检测的多模态融合

提出一种新的中级多模态融合（mmFUSION）方法，通过分别计算每种模态的特征并通过交叉模态和多模态注意机制进行融合，实现了精确的自动驾驶系统中的三维目标检测。

Nov, 2023

DeepFusion: 基于 Lidar 和相机的深度融合技术用于多模态 3D 物体检测

本文介绍了一种通过将 lidar 特征与摄像头特征融合的方法来提高自动驾驶 3D 检测性能。基于 InverseAug 和 LearnableAlign，提出了一系列被称为 DeepFusion 的通用多模态 3D 检测模型，实现了对 PointPillars、CenterPoint 和 3D-MAN 基线的有效改进，表现出对输入异常和数据偏移的强大鲁棒性和最先进的性能，可公开获取代码

Mar, 2022