利用大规模预训练视觉基础模型进行高效标签的 3D 点云分割
该研究调查了使用视觉基础模型实现二维和三维场景理解的潜力,并提出了一个新的跨模式噪声监督方法,利用 CLIP 和 SAM 模型的优势共同训练二维和三维网络,实现了在不需要标记数据的情况下进行图像语义分割。
Jun, 2023
通过使用基于 Transformer 的方法在 3D 空间中扩展了 Segment Anything Model(SAM),我们提出了一种 3D 可提示分割模型(Point-SAM),利用部分级和对象级注释,从 SAM 中生成伪标签,将 2D 知识提取到我们的 3D 模型中,并在室内和室外基准测试中优于最先进的模型,展示了多种应用,如 3D 标注。
Jun, 2024
PointSeg 是一种新的无需训练的范例,借助现有的视觉基础模型来解决 3D 场景感知任务,并展示了令人印象深刻的分割性能。
Mar, 2024
SAM3D 是一个创新的框架,通过利用 RGB 图像中的 Segment-Anything 模型而无需进一步训练或微调,能够在 3D 点云中预测掩模,首先预测具有 SAM 的 RGB 图像的分割掩模,然后将 2D 掩模投影到 3D 点中。最后,两个相邻帧的点云掩模以双向合并的方式进行合并,最终可以将不同帧预测出的 3D 掩模逐渐合并为整个 3D 场景的 3D 掩模,实验结果表明 SAM3D 能够在不需要对 SAM 进行训练或微调的情况下,实现合理和细粒度的 3D 分割结果。
Jun, 2023
本研究利用预训练的 CLIP 和 DINO 模型的多模式知识和物体推理能力来解决三维开放式词汇分割的挑战。通过优化神经辐射场 (NeRF) 并引入相应的损失函数,本研究在无需进行微调的情况下,以开放式视觉和文本知识为先验知识,从 2D 特征中提取出 3D 分割特征。通过实验验证,本研究所提出的方法在无需分割注释的情况下,甚至优于完全监督的分割模型训练,表明三维开放式词汇分割可以有效地从 2D 图像和文本图像对中学到。
May, 2023
我们构建了一个轻量级模块,基于自监督预训练的视觉编码器与预训练文本编码器对齐图像特征,利用现有的基础模型生成语义分割数据集的免费注释,并使用这个模块为任何预训练视觉编码器带来基于语言的语义,只需少量无注释训练数据,表现出令人印象深刻的泛化能力。
Mar, 2024
本文提出了一种简单而有效的基线方法,将 CLIP 中的视觉语言知识在特征和输出层面上转移到点云编码器,从而在零样本点云语义分割中取得了显著的性能提升,并在无标注点云语义分割设置中取得了有希望的结果,展示了其在标签效率学习方面的巨大潜力。
Dec, 2023
本研究旨在将基础模型的能力发挥在 3D 视觉任务中,在通过 SAM 提出的 BEV 流程管道构建的基础上,通过提高零样例能力实现 3D 物体检测,将其应用于 Waymo 开放数据集,展示其可行性。
Jun, 2023
针对 3D 点云的分割问题,我们提出了一种新的点云分割框架,该框架能有效地优化整个场景的像素级特征,几何结构和全局上下文先验。实验结果表明,该方法优于现有的一些最先进的方法,并探讨了在三维重建场景中合成相机姿态以获得更高的性能。
Aug, 2019
我们提出了一种简单的方法,将视觉基础模型(如 CLIP 和 Segment Anything Model)高效地合并成一个统一的模型,以便于边缘设备应用,并能够在广泛的视觉任务中学习富含定位和语义特征的更丰富的视觉表示,同时在零样本语义分割方面取得了新的最先进结果。
Oct, 2023