基于几何驱动的零样本三维点云理解聚合
最近的研究进展表明,语言视觉模型在二维计算机视觉任务方面已经超过了现有的最先进技术 (SOTA),激发了将语言视觉模型应用于三维数据的尝试。然而,应用于点云的 LVM 面临着从三维数据提取特征的困难以及由于数据量大、采集和标注成本高导致数据集的可用性明显有限等挑战。为了解决这些问题,我们的研究旨在通过球面投影将 3D 数据转化为 2D,并尝试使用合成数据评估其在合成和真实数据之间弥合差距方面的效果。我们的方法表现出了高性能,准确率为 0.96,IoU 为 0.85,精确率为 0.92,召回率为 0.91,F1 分数为 0.92,验证了其潜力。然而,在未来的研究中仍需要解决遮挡问题和球面图像生成过程中多标签点的像素级重叠等挑战。
Apr, 2024
本文提出了一种端到端可训练的多视角聚合模型,利用 3D 点的视角优势,从任意位置拍摄的图像中合并特征,将标准 2D 和 3D 网络相结合,不需要着色、上网格或真实深度图,我们在 S3DIS 和 KITTI-360 数据集上取得了新的最佳效果。
Apr, 2022
零射点云分割方法探索了如何识别在训练阶段未见过的点云中的新物体,并利用深度模型从已标记的已知类别转移知识到未标记的未知类别,提出了一种新颖的多模态零射学习方法,以更准确地对齐视觉和语义特征,在两个流行的基准数据集 SemanticKITTI 和 nuScenes 上进行的实验表明,我们的方法在未见类别 mIoU 上分别取得了 52% 和 49% 的提升,超过了当前的最佳方法。
Jul, 2023
本文介绍了一种用于零样本点云语义分割的新型框架,该框架利用了几何基元以在训练期间进行类别之间的知识转移,并使用未知感知信息熵来校准视觉与语义表示。通过大量实验,该方法在 S3DIS、ScanNet 和 SemanticKITTI 数据集上的 hIoU 指标得到了显著提升。
Oct, 2022
本研究提出了一种新的基于生成模型的零样本学习方法,能够处理包括分类和语义分割在内的三维数据,在 ModelNet40 数据集上表现良好,并在 S3DIS,ScanNet 和 SemanticKITTI 数据集上进行了验证。
Aug, 2021
我们研究了在点云中分类物体类别的挑战,通过使用 GPT-4 Vision(GPT-4V)的先进生成能力,我们的方法能够处理复杂的 3D 数据,在不改变底层模型架构的情况下实现了零样本识别能力,并通过系统策略进行点云图像可视化,提高了 GPT-4V 的效率。实验证明了我们方法在各种情景下的优越性,设定了零样本点云分类的新基准。
Jan, 2024
本文提出了一种简单而有效的基线方法,将 CLIP 中的视觉语言知识在特征和输出层面上转移到点云编码器,从而在零样本点云语义分割中取得了显著的性能提升,并在无标注点云语义分割设置中取得了有希望的结果,展示了其在标签效率学习方面的巨大潜力。
Dec, 2023
通过 Vision-Language Models Goes 4D (VG4D) 框架,我们将 VLM 知识从视觉 - 文本预训练模型转移到 4D 点云网络中,实现了增强的识别性能。我们还提出了改进的 PSTNet 版本 im-PSTNet 来增强 4D 编码器,并通过实验证明了我们方法在动作识别方面达到了最先进的性能。
Apr, 2024
在动态测试环境中,现有的全监督点云分割方法无法应对新出现的类别。为解决这一问题,少样本点云分割算法通过学习适应新类别,但会牺牲对基类别的分割准确性,从而严重影响其实用性。因此,我们首次尝试了更实用的广义少样本点云分割范式,要求模型能够同时推广到用仅有少量支持点云表示的新类别,并保持对基类别的分割能力。我们提出了几何单词来表示基类别和新类别之间共享的几何组件,并将其融入新型几何感知语义表示中,以更好地推广到新类别而不会遗忘旧类别。此外,我们引入几何原型来利用几何先验知识来引导分割。在 S3DIS 和 ScanNet 上进行的大量实验证明了我们方法在基准方法上的卓越性能。
Sep, 2023