PointCLIP V2: 适应强大 3D 开放世界学习的 CLIP
本文基于 Contrastive Vision-Language Pre-training (CLIP) 提出了一种对应 PointCloud 数据和 3D 文本分类的零样本和小样本学习模型 PointCLIP,并通过在 ModelNet10、ModelNet40 和 ScanObjectNN 数据集上的实验证明其有效性。
Dec, 2021
提出了一种新的基于对比学习的图像 - 深度预训练方法 CLIP2Point,通过加强深度特征捕捉视觉和文本特征,增强深度聚合不变性,以实现将 CLIP 知识转移到 3D 视觉,并在零样本和少样本分类任务上实现了最优结果。
Oct, 2022
本文提出 Contrastive Language-Image-Point Cloud Pretraining (CLIP2) 方法,通过建立二三维场景对齐的实例文本 - 图像 - 点云代理和交叉模态对比学习策略,直接学习可迁移的三维点云表示,并在室内和室外场景中实验验证了其在零样本和少样本三维识别任务中的显著性能提升。
Mar, 2023
本文介绍了一种简单而有效的框架 CLIP2Scene,通过从二维预训练模型中转移知识到三维点云网络,利用语义和时空一致性正则化来预训练三维网络,实现了三维场景理解任务,并在多个数据集上进行了实验验证,其中包括无注释的 3D 语义分割,mIoU 在 nuScenes 和 ScanNet 数据集上分别达到了 20.8% 和 25.08%。
Jan, 2023
本文提出了一种简单而有效的基线方法,将 CLIP 中的视觉语言知识在特征和输出层面上转移到点云编码器,从而在零样本点云语义分割中取得了显著的性能提升,并在无标注点云语义分割设置中取得了有希望的结果,展示了其在标签效率学习方面的巨大潜力。
Dec, 2023
本研究提出一种名为 MULTI-CLIP 的 3D 预训练视觉语言模型,可有效提高现有 3D 视觉问答任务的表现并构建出具有良好结构的 3D 场景特征空间。
Jun, 2023
本文提出了一种新的预训练框架 DiffCLIP,其结合稳定扩散和 ControlNet,以减小视觉分支中的域间差异,并引入了一种样式提示生成模块,用于少样本任务,在 ModelNet10、ModelNet40 和 ScanObjectNN 数据集上进行广泛实验,表明 DiffCLIP 具有强大的 3D 理解能力。使用稳定扩散和样式提示生成,DiffCLIP 在 ScanObjectNN 的 OBJ_BG 数据集上实现了 43.2%的零样本分类精度,这是最先进的技术水平,并且在 ModelNet10 上实现了 80.6%的零样本分类精度,这与最先进的技术水平相当。
May, 2023
推出了 Duoduo CLIP 模型,用于从多视图图像中学习形状表示,相比基于点云的方法,它展示了更好的泛化性能、减少的 GPU 要求和训练时间,以及利用多帧对象的交叉视图注意力进一步提升的性能。多视图图像还提供了与基于点云方法相比更大的灵活性,在实际世界对象的图像分类和文本到形状检索中展示了更好的性能。
Jun, 2024
本文介绍了一种新颖的 3D 预训练视觉 - 语言方法,将来自 2D 图像的语言知识和视觉概念应用于 3D 世界的理解,使用流行的 CLIP 模型代入编码的 3D 场景特征以评估其 3D 世界推理能力,并在 3D 视觉问答下游任务中证明了该方法的优越性和可解释性。
Apr, 2023
通过视角选择和分层提示的策略,本研究旨在改进预训练模型在零样本三维形状识别中的信心,实现无需额外训练的令人印象深刻的分类准确性。
Nov, 2023