Apr, 2024

使用语言视觉模型在移动 LiDAR 中进行建筑零击探测

TL;DR最近的研究进展表明,语言视觉模型在二维计算机视觉任务方面已经超过了现有的最先进技术 (SOTA),激发了将语言视觉模型应用于三维数据的尝试。然而,应用于点云的 LVM 面临着从三维数据提取特征的困难以及由于数据量大、采集和标注成本高导致数据集的可用性明显有限等挑战。为了解决这些问题,我们的研究旨在通过球面投影将 3D 数据转化为 2D,并尝试使用合成数据评估其在合成和真实数据之间弥合差距方面的效果。我们的方法表现出了高性能,准确率为 0.96,IoU 为 0.85,精确率为 0.92,召回率为 0.91,F1 分数为 0.92,验证了其潜力。然而,在未来的研究中仍需要解决遮挡问题和球面图像生成过程中多标签点的像素级重叠等挑战。