MV-CLIP:多视角 CLIP 用于零样本 3D 形状识别
本研究提出一种名为 MULTI-CLIP 的 3D 预训练视觉语言模型,可有效提高现有 3D 视觉问答任务的表现并构建出具有良好结构的 3D 场景特征空间。
Jun, 2023
本文介绍了一种新颖的 3D 预训练视觉 - 语言方法,将来自 2D 图像的语言知识和视觉概念应用于 3D 世界的理解,使用流行的 CLIP 模型代入编码的 3D 场景特征以评估其 3D 世界推理能力,并在 3D 视觉问答下游任务中证明了该方法的优越性和可解释性。
Apr, 2023
本文介绍了一种多模态提示学习方案,该方案在单一统一的训练下平衡了监督和零样本学习的表现,并提出了视觉和文本方面的提示方案,通过保持预训练的骨干网络冻结,在保留现有的通用表示的同时实现了最先进的零样本效果。
Apr, 2023
基于多视图表征,利用大型视觉语言模型 CLIP,探索零 / 少样本三维形状识别任务,并提出 Prompt-Enhanced View Aggregation Network (PEVA-Net) 以同时解决零 / 少样本场景下的三维形状识别问题,通过自我蒸馏方案显著提高了少样本学习效果。
Apr, 2024
本文基于 Contrastive Vision-Language Pre-training (CLIP) 提出了一种对应 PointCloud 数据和 3D 文本分类的零样本和小样本学习模型 PointCLIP,并通过在 ModelNet10、ModelNet40 和 ScanObjectNN 数据集上的实验证明其有效性。
Dec, 2021
本文介绍了一种简单而有效的框架 CLIP2Scene,通过从二维预训练模型中转移知识到三维点云网络,利用语义和时空一致性正则化来预训练三维网络,实现了三维场景理解任务,并在多个数据集上进行了实验验证,其中包括无注释的 3D 语义分割,mIoU 在 nuScenes 和 ScanNet 数据集上分别达到了 20.8% 和 25.08%。
Jan, 2023
本文提出了一种简单而有效的基线方法,将 CLIP 中的视觉语言知识在特征和输出层面上转移到点云编码器,从而在零样本点云语义分割中取得了显著的性能提升,并在无标注点云语义分割设置中取得了有希望的结果,展示了其在标签效率学习方面的巨大潜力。
Dec, 2023
推出了 Duoduo CLIP 模型,用于从多视图图像中学习形状表示,相比基于点云的方法,它展示了更好的泛化性能、减少的 GPU 要求和训练时间,以及利用多帧对象的交叉视图注意力进一步提升的性能。多视图图像还提供了与基于点云方法相比更大的灵活性,在实际世界对象的图像分类和文本到形状检索中展示了更好的性能。
Jun, 2024
通过两个无监督方法,我们提出了 $I2I$ 和 $(I2L)^2$,利用 CLIP 关于文本和 2D 数据的知识,计算两个 3D 样本之间的神经感知相似度,从而在没有文本描述的情况下增强对比的文本 - 图像 - 3D 对齐,通过自定义损失函数和硬负样本挖掘建立多模态对比流程,我们的方法在 3D 分类和跨模态检索基准测试方面取得了与之前方法相媲美甚至更优的性能,显著改善了图像到形状和形状到图像的检索效果。
Jun, 2024
基于预训练视觉 - 语言模型的 Cascade-CLIP 方法,在零样本语义分割任务中通过引入一系列独立解码器,以级联方式将多层次的视觉特征与文本嵌入对齐,取得了优秀的性能。
Jun, 2024