自主驾驶点云中基于语言的 3D 物体检测

May, 2023

自主驾驶点云中基于语言的 3D 物体检测

Language-Guided 3D Object Detection in Point Cloud for Autonomous Driving

Wenhao Cheng, Junbo Yin, Wei Li, Ruigang Yang, Jianbing Shen

TL;DR本文提出了一种新的多模态视觉定位任务，称为 LiDAR Grounding，并通过设计一种名为 MSSG 的多模态单次定位方法来实现，通过跨模态学习来提高定位精度和效率。

Abstract

This paper addresses the problem of 3d referring expression comprehension (REC) in autonomous driving scenario, which aims to ground a natural language to the targeted region in →

3d referring expression comprehension autonomous driving lidar multi-modal visual grounding object detection

发现论文，激发创造

利用激光雷达点云的端到端三维物体检测

无人驾驶车辆中的目标检测与跟踪任务主要依靠相机和 LiDAR 等多种传感器，本研究在使用 LiDAR 点云的新编码方式基础上，通过推断自动驾驶车辆附近不同类别物体的位置，实现了对场景中物体位置和方向的预测。

Dec, 2023

基于自由形式描述导向的点云物体 grounding 的三维视觉图网络

本篇论文提出了基于自由文本语言描述的三维物体定位方法，通过引入多个图模型来解决不同挑战。经过在挑战类数据集上的多次测试，结果表明我们所提出的算法优于现有最先进技术。

Mar, 2021

基于激光雷达点云辅助的单目三维物体检测

通过使用粗略标签和无标签雷达点云伪标签，LPCG 可以在自动驾驶系统中显著降低标注成本或显著提高检测准确性，在 KITTI 基准测试和 Waymo 基准测试中都取得了很好的效果。

Apr, 2021

多模态虚拟点 3D 检测

通过无缝融合 RGB 传感器到 Lidar 的 3D 识别中，我们提出了一个简单而有效的多模态检测器，该方法利用一组 2D 检测生成密集的虚拟 3D 点，能够增强原来稀疏的 3D 点云，实验结果在大规模 nuScenes 数据集上取得了显着的改进，并超过了竞争融合方法。

Nov, 2021

激光雷达引导半监督主动学习的单目三维物体检测

本文提出了一种新颖的半监督主动学习 (SSAL) 框架，用于配备了激光雷达的单目 3D 物体检测，利用了模型开发过程中所收集的所有数据的多模态。通过利用激光雷达来指导单目 3D 检测器的数据选择和训练，不在推理阶段引入任何开销，并采用半监督学习中的激光雷达教师，单目学生交叉模态框架，用于从未标记数据中蒸馏信息作为伪标签，以处理传播噪声等问题。文中也给出了用于选择需标记样本的传感器一致性基础选择评分的解决方案，同时也符合训练目标。本文在 KITTI 和 Waymo 数据集上广泛实验，验证了所提出方法的有效性。具体来说，所提出的选择策略在成本节省方面始终优于现有主动学习基线，在标签成本上节约了高达 17% 的成本；训练策略在 KITTI 3D 和 BEV 单目物体检测官方基准中获得了最佳成绩，将 BEV 平均精度提高了 2.02。

Jul, 2023

InstanceRefer: 基于实例多级语境参考的点云视觉定位合作全面理解

本文提出了一种名为 InstanceRefer 的模型，该模型利用语言描述实现目标类别预测，从 3D 点云的广义实例分割中筛选出少量实例候选项，利用多级语境推理和多层次特征匹配来实现最相关候选项的选择和定位，从而实现了优越的 3D 视觉定位结果

Mar, 2021

WildRefer: 基于多模态视觉数据和自然语言的大规模动态场景中的 3D 物体定位

本研究提出了一种基于自然语言描述和多模式视觉数据的大规模动态场景的 3D 视觉定位任务的方法，并且通过利用图像的外观特征、点云中的位置和几何特征以及连续输入帧中的动态特征，匹配语言中的语义特征。我们提出了两个新的数据集，STRefer 和 LifeRefer，这些数据集对于野外 3D 视觉定位的研究具有重要意义，并且有着提升自动驾驶和服务机器人发展的巨大潜力。广泛的比较和消融研究证明，我们的方法在两个提出的数据集上实现了最先进的性能。

Apr, 2023

高级相机 - LiDAR 融合与机器学习的 3D 物体检测

本研究提出了一种使用单目摄像头和 LiDAR 数据结合的机器学习技术，通过以国际排名领先的二维物体探测器生成的锥体区域来分割 LiDAR 点云，从而检测运动平台周围的车辆的 3D 边界框参数，最终验证集准确率达到 87.1％。

May, 2021

自动驾驶中的无监督 3D 感知与 2D 视觉语言蒸馏

本文介绍了一种多模态自动标注流程，可以生成用于训练开放式类别的无标注 3D 边界框和轨迹，从而处理自动驾驶等安全关键应用中可能在部署后遇到的新物体类型。相比于当前领域的最新研究，我们的方法可以以无监督的方式处理静态和移动的对象，并通过提出的视觉 - 语言知识蒸馏方法输出开放式词汇的语义标签。基于 Waymo 开放数据集的实验证明，我们的方法在各种无监督 3D 感知任务上显著优于先前的工作。

Sep, 2023

用于自动驾驶的多视角三维物体检测网络

该论文研究了自动驾驶场景下高精度的 3D 物体检测问题。其提出了 Multi-View 3D networks（MV3D）框架，该框架采用多传感器融合技术，将 LIDAR 点云和 RGB 图像作为输入，并预测有方向的 3D 界限框。实验表明，该方法在 3D 定位和 3D 检测任务方面的表现优于现有技术约 25％和 30％，在 2D 检测中也表现出显著的技术优势。

Nov, 2016