使用语言视觉模型在移动 LiDAR 中进行建筑零击探测

Apr, 2024

使用语言视觉模型在移动 LiDAR 中进行建筑零击探测

Zero-shot detection of buildings in mobile LiDAR using Language Vision Model

June Moh Goo, Zichao Zeng, Jan Boehm

TL;DR最近的研究进展表明，语言视觉模型在二维计算机视觉任务方面已经超过了现有的最先进技术 (SOTA)，激发了将语言视觉模型应用于三维数据的尝试。然而，应用于点云的 LVM 面临着从三维数据提取特征的困难以及由于数据量大、采集和标注成本高导致数据集的可用性明显有限等挑战。为了解决这些问题，我们的研究旨在通过球面投影将 3D 数据转化为 2D，并尝试使用合成数据评估其在合成和真实数据之间弥合差距方面的效果。我们的方法表现出了高性能，准确率为 0.96，IoU 为 0.85，精确率为 0.92，召回率为 0.91，F1 分数为 0.92，验证了其潜力。然而，在未来的研究中仍需要解决遮挡问题和球面图像生成过程中多标签点的像素级重叠等挑战。

Abstract

Recent advances have demonstrated that language vision models (LVMs) surpass the existing State-of-the-Art (SOTA) in two-dimensional (2D) computer vision tasks, motivating attempts to apply LVMs to three-dimensional (3D) data. While LVMs are efficient and effective in addressing variou

language vision models 3d data point clouds grounded sam synthetic data

发现论文，激发创造

基于几何驱动的零样本三维点云理解聚合

通过利用点云的几何结构改进传输的视觉 - 语言模型，我们提出了首个无需训练的聚合技术，通过几何和语义的点级推理，在分类、部件分割和语义分割等三个任务中取得了新的技术优势。

Dec, 2023

高级相机 - LiDAR 融合与机器学习的 3D 物体检测

本研究提出了一种使用单目摄像头和 LiDAR 数据结合的机器学习技术，通过以国际排名领先的二维物体探测器生成的锥体区域来分割 LiDAR 点云，从而检测运动平台周围的车辆的 3D 边界框参数，最终验证集准确率达到 87.1％。

May, 2021

VFMM3D：通过视觉基础模型释放图像的潜能，用于单目三维物体检测

VFMM3D 利用 Vision Foundation Models (VFMs) 将单视图图像准确转换为 LiDAR 点云表示，生成富有前景信息的伪 LiDAR 数据，以此来进行单目三维目标检测并预测物体的三维坐标。

Apr, 2024

3D-LLM：将三维世界注入大型语言模型

我们提出了一种新的 3D-LLMs，将 3D 世界引入大型语言模型，并利用 3D point clouds 进行各种 3D 相关任务，通过我们设计的提示机制收集了超过 300k 的 3D 语言数据，实验证明我们的模型在 ScanQA 上的表现超过了最先进的基准方法，并在 3D 字幕、任务组合和 3D 辅助对话方面优于 2D VLMs。

Jul, 2023

VG4D：视觉语言模型进入 4D 视频识别

通过 Vision-Language Models Goes 4D (VG4D) 框架，我们将 VLM 知识从视觉 - 文本预训练模型转移到 4D 点云网络中，实现了增强的识别性能。我们还提出了改进的 PSTNet 版本 im-PSTNet 来增强 4D 编码器，并通过实验证明了我们方法在动作识别方面达到了最先进的性能。

Apr, 2024

PV-SSD：基于投影和体素的双分支单阶段三维目标检测器

该论文介绍了一种基于体元和投影双分支特征提取的 3D 目标检测器，以解决信息丢失的问题。通过融合具有丰富局部语义信息的体元特征和投影特征，该方法在特征提取阶段减少了由投影引起的局部信息丢失，并在比较实验中取得了良好的性能。

Aug, 2023

MS23D：一种使用多尺度语义特征点构建 3D 特征层的三维目标检测方法

MS$^{2}$3D 是一个两阶段的三维检测框架，利用小尺寸的体素提取细粒度的局部特征和大尺寸的体素捕捉长程局部特征，通过多尺度语义特征点构建三维特征层并计算特征点与目标质心的偏移，以提高特征聚合的效率，在 KITTI 数据集和 ONCE 数据集上验证了该方法的有效性。

Aug, 2023

自主驾驶点云中基于语言的 3D 物体检测

本文提出了一种新的多模态视觉定位任务，称为 LiDAR Grounding，并通过设计一种名为 MSSG 的多模态单次定位方法来实现，通过跨模态学习来提高定位精度和效率。

May, 2023

具备 3D 理解的语言 - 图像模型

通过扩展多模态大语言模型 (MLLMs) 的感知能力以在三维空间中对图像进行定位和推理，本研究引入了一个名为 Cube-LLM 的新 MLLM，并在 LV3D 数据集上进行预训练，实验表明 Cube-LLM 在整体 MLLM 和特定领域的基准测试中均表现出色，并取得了显著的成果。

May, 2024

LiDAR-LLM：探索大语言模型在 3D LiDAR 理解方面的潜力

LiDAR-LLM 使用 Large Language Models（LLMs）和 Multimodal Large Language Models（MLLMs）来理解 3D 场景，通过重新构建 3D 场景认知为语言建模问题并使用 View-Aware Transformer（VAT）来加强 LLMs 的空间定向理解，从而实现对 3D 场景的多种指令的理解和复杂空间推理。

Dec, 2023