VFMM3D：通过视觉基础模型释放图像的潜能，用于单目三维物体检测

Apr, 2024

VFMM3D：通过视觉基础模型释放图像的潜能，用于单目三维物体检测

VFMM3D: Releasing the Potential of Image by Vision Foundation Model for Monocular 3D Object Detection

Bonan Ding, Jin Xie, Jing Nie, Jiale Cao

TL;DRVFMM3D 利用 Vision Foundation Models (VFMs) 将单视图图像准确转换为 LiDAR 点云表示，生成富有前景信息的伪 LiDAR 数据，以此来进行单目三维目标检测并预测物体的三维坐标。

Abstract

Due to its cost-effectiveness and widespread availability, monocular 3D object detection, which relies solely on a single camera during inference, holds significant importance across various applications, including autonomous driving and robotics. Nevertheless, directly predicting the coordinates of objects in 3D space from monocular images poses challenges.

monocular 3d object detection lidar-like representations vfmm3d vision foundation models (vfms)pseudo-lidar data

发现论文，激发创造

OCM3D：基于物体的单目三维物体检测

本文提出了一种适用于单目三维目标检测的新型基于物体的体素表示法，能够有效地组织噪点云在体素网格内，并能够精确定位对象在三维空间中的位置。通过考虑三维物体与相关二维框之间的关系，我们将单目三维目标检测中的置信度机制进行了分解，并在 KITTI 数据集上进行了评估，性能显著优于现有技术。

Apr, 2021

高级相机 - LiDAR 融合与机器学习的 3D 物体检测

本研究提出了一种使用单目摄像头和 LiDAR 数据结合的机器学习技术，通过以国际排名领先的二维物体探测器生成的锥体区域来分割 LiDAR 点云，从而检测运动平台周围的车辆的 3D 边界框参数，最终验证集准确率达到 87.1％。

May, 2021

LiDAR 点云 3D 物体检测的端到端多视角融合

本文提出了一种新颖的多视角融合算法 (MVF)，它能够从鸟瞰视角和透视视角有效地学习利用互补信息，其中采用了动态体素化方法。在 Waymo 开放数据集和 KITTI 数据集上的评估表明，MVF 模型显著提高了检测精度。

Oct, 2019

使用语言视觉模型在移动 LiDAR 中进行建筑零击探测

最近的研究进展表明，语言视觉模型在二维计算机视觉任务方面已经超过了现有的最先进技术 (SOTA)，激发了将语言视觉模型应用于三维数据的尝试。然而，应用于点云的 LVM 面临着从三维数据提取特征的困难以及由于数据量大、采集和标注成本高导致数据集的可用性明显有限等挑战。为了解决这些问题，我们的研究旨在通过球面投影将 3D 数据转化为 2D，并尝试使用合成数据评估其在合成和真实数据之间弥合差距方面的效果。我们的方法表现出了高性能，准确率为 0.96，IoU 为 0.85，精确率为 0.92，召回率为 0.91，F1 分数为 0.92，验证了其潜力。然而，在未来的研究中仍需要解决遮挡问题和球面图像生成过程中多标签点的像素级重叠等挑战。

Apr, 2024

用于自动驾驶的多视角三维物体检测网络

该论文研究了自动驾驶场景下高精度的 3D 物体检测问题。其提出了 Multi-View 3D networks（MV3D）框架，该框架采用多传感器融合技术，将 LIDAR 点云和 RGB 图像作为输入，并预测有方向的 3D 界限框。实验表明，该方法在 3D 定位和 3D 检测任务方面的表现优于现有技术约 25％和 30％，在 2D 检测中也表现出显著的技术优势。

Nov, 2016

面向单目 3D 物体检测的深度通用化

提出了一种基于 MoVi-3D 的深度学习架构，使用几何信息生成虚拟视图对单目 RGB 进行 3D 物体检测，与传统方法相比，成功削减了视觉差异性导致的深度学习复杂度，从而取得了 KITTI3D 基准测试的新的最优结果。

Dec, 2019

基于伪激光雷达点云的单目 3D 目标检测

提升单目深度学习算法中对于三维场景物体检测的表现，通过伪 LIDAR 点云实现与 LIDAR 算法的融合，最终在 KITTI 基准测试中取得了最优结果。

Mar, 2019

FM-OV3D：面向开放词汇的基于基础模型的跨模态知识融合的 3D 目标检测

基于各种基础模型的跨模态知识融合方法可以提高 3D 模型的开放性词汇能力，并成功实现了在开放性 3D 目标检测任务中领先的性能。

Dec, 2023

用于 3D 目标检测的密集体素融合

提出了基于 Dense Voxel Fusion 的序列融合方法，该方法对于自主车辆应用中的 3D 物体检测具有重要意义。通过直接使用地面真实 3D 边界框标签进行训练，避免使用嘈杂的、特定于检测器的 2D 预测。DVF 在 KITTI 3D 汽车检测基准测试中排名第三，且不引入额外的可训练参数，也不需要使用立体图像或密集深度标签。此外，在 Waymo 开放数据集上，DVF 显著提高了基于体素的方法在 3D 车辆检测方面的性能。

Mar, 2022

SVDM: 用于伪立体 3D 物体检测的单视角扩散模型

本文提出了一个端到端的，高效的伪立体三维检测框架，引入了 Single-View Diffusion Model （SVDM），通过几次迭代逐渐将正确的信息像素传递到左图像中，这使得整个伪立体三维检测流水线可以端到端地训练，并且可以受益于立体检测器的训练。此外，我们进一步探讨了 SVDM 在无深度立体三维检测中的应用，并将最终框架与大多数立体检测器兼容。在 KITTI 数据集的多项基准测试中，我们实现了新的最先进性能。

Jul, 2023