自主驾驶点云中基于语言的 3D 物体检测
无人驾驶车辆中的目标检测与跟踪任务主要依靠相机和 LiDAR 等多种传感器,本研究在使用 LiDAR 点云的新编码方式基础上,通过推断自动驾驶车辆附近不同类别物体的位置,实现了对场景中物体位置和方向的预测。
Dec, 2023
本篇论文提出了基于自由文本语言描述的三维物体定位方法,通过引入多个图模型来解决不同挑战。经过在挑战类数据集上的多次测试,结果表明我们所提出的算法优于现有最先进技术。
Mar, 2021
通过使用粗略标签和无标签雷达点云伪标签,LPCG 可以在自动驾驶系统中显著降低标注成本或显著提高检测准确性,在 KITTI 基准测试和 Waymo 基准测试中都取得了很好的效果。
Apr, 2021
通过无缝融合 RGB 传感器到 Lidar 的 3D 识别中,我们提出了一个简单而有效的多模态检测器,该方法利用一组 2D 检测生成密集的虚拟 3D 点,能够增强原来稀疏的 3D 点云,实验结果在大规模 nuScenes 数据集上取得了显着的改进,并超过了竞争融合方法。
Nov, 2021
本文提出了一种新颖的半监督主动学习 (SSAL) 框架,用于配备了激光雷达的单目 3D 物体检测,利用了模型开发过程中所收集的所有数据的多模态。通过利用激光雷达来指导单目 3D 检测器的数据选择和训练,不在推理阶段引入任何开销,并采用半监督学习中的激光雷达教师,单目学生交叉模态框架,用于从未标记数据中蒸馏信息作为伪标签,以处理传播噪声等问题。文中也给出了用于选择需标记样本的传感器一致性基础选择评分的解决方案,同时也符合训练目标。本文在 KITTI 和 Waymo 数据集上广泛实验,验证了所提出方法的有效性。具体来说,所提出的选择策略在成本节省方面始终优于现有主动学习基线,在标签成本上节约了高达 17% 的成本;训练策略在 KITTI 3D 和 BEV 单目物体检测官方基准中获得了最佳成绩,将 BEV 平均精度提高了 2.02。
Jul, 2023
本文提出了一种名为 InstanceRefer 的模型,该模型利用语言描述实现目标类别预测,从 3D 点云的广义实例分割中筛选出少量实例候选项,利用多级语境推理和多层次特征匹配来实现最相关候选项的选择和定位,从而实现了优越的 3D 视觉定位结果
Mar, 2021
本研究提出了一种基于自然语言描述和多模式视觉数据的大规模动态场景的 3D 视觉定位任务的方法,并且通过利用图像的外观特征、点云中的位置和几何特征以及连续输入帧中的动态特征,匹配语言中的语义特征。我们提出了两个新的数据集,STRefer 和 LifeRefer,这些数据集对于野外 3D 视觉定位的研究具有重要意义,并且有着提升自动驾驶和服务机器人发展的巨大潜力。广泛的比较和消融研究证明,我们的方法在两个提出的数据集上实现了最先进的性能。
Apr, 2023
本研究提出了一种使用单目摄像头和 LiDAR 数据结合的机器学习技术,通过以国际排名领先的二维物体探测器生成的锥体区域来分割 LiDAR 点云,从而检测运动平台周围的车辆的 3D 边界框参数, 最终验证集准确率达到 87.1%。
May, 2021
本文介绍了一种多模态自动标注流程,可以生成用于训练开放式类别的无标注 3D 边界框和轨迹,从而处理自动驾驶等安全关键应用中可能在部署后遇到的新物体类型。相比于当前领域的最新研究,我们的方法可以以无监督的方式处理静态和移动的对象,并通过提出的视觉 - 语言知识蒸馏方法输出开放式词汇的语义标签。基于 Waymo 开放数据集的实验证明,我们的方法在各种无监督 3D 感知任务上显著优于先前的工作。
Sep, 2023
该论文研究了自动驾驶场景下高精度的 3D 物体检测问题。其提出了 Multi-View 3D networks(MV3D)框架,该框架采用多传感器融合技术,将 LIDAR 点云和 RGB 图像作为输入,并预测有方向的 3D 界限框。实验表明,该方法在 3D 定位和 3D 检测任务方面的表现优于现有技术约 25%和 30%,在 2D 检测中也表现出显著的技术优势。
Nov, 2016