CLIP 在学习 3D 中的应用
本文介绍了一种简单而有效的框架 CLIP2Scene,通过从二维预训练模型中转移知识到三维点云网络,利用语义和时空一致性正则化来预训练三维网络,实现了三维场景理解任务,并在多个数据集上进行了实验验证,其中包括无注释的 3D 语义分割,mIoU 在 nuScenes 和 ScanNet 数据集上分别达到了 20.8% 和 25.08%。
Jan, 2023
本文提出 Contrastive Language-Image-Point Cloud Pretraining (CLIP2) 方法,通过建立二三维场景对齐的实例文本 - 图像 - 点云代理和交叉模态对比学习策略,直接学习可迁移的三维点云表示,并在室内和室外场景中实验验证了其在零样本和少样本三维识别任务中的显著性能提升。
Mar, 2023
本研究提出一种名为 MULTI-CLIP 的 3D 预训练视觉语言模型,可有效提高现有 3D 视觉问答任务的表现并构建出具有良好结构的 3D 场景特征空间。
Jun, 2023
通过视角选择和分层提示的策略,本研究旨在改进预训练模型在零样本三维形状识别中的信心,实现无需额外训练的令人印象深刻的分类准确性。
Nov, 2023
本文基于 Contrastive Vision-Language Pre-training (CLIP) 提出了一种对应 PointCloud 数据和 3D 文本分类的零样本和小样本学习模型 PointCLIP,并通过在 ModelNet10、ModelNet40 和 ScanObjectNN 数据集上的实验证明其有效性。
Dec, 2021
本文提出了一种用于对医学图像和文本进行训练的的简单而有效的框架 ——MedCLIP,该框架采用了对抗学习和多模式学习,并引入医学知识语义匹配。实验结果表明,MedCLIP 在零样本预测、有监督分类和图像文本检索等方面超过了现有最佳方法。令人惊讶的是,仅使用了 20K 的预训练数据就超过了使用约 200K 数据的现有最佳方法。
Oct, 2022
本篇论文提出了一种新的方法 SoftCLIP,它通过引入软化的目标来实现交叉模态对齐,并利用模内的自相似性指导实现许多对许多的关系,从而解决了高质量图像 - 文本配对数据的获取问题,成果表现良好。
Mar, 2023
本文介绍了一种新颖的 3D 预训练视觉 - 语言方法,将来自 2D 图像的语言知识和视觉概念应用于 3D 世界的理解,使用流行的 CLIP 模型代入编码的 3D 场景特征以评估其 3D 世界推理能力,并在 3D 视觉问答下游任务中证明了该方法的优越性和可解释性。
Apr, 2023
本文提出一种名为 DepthCLIP 的方法,将基于对比学习的语言 - 图像预训练(CLIP)应用于零样本单目深度估计任务中,成功地将语义上的知识迁移到了更为复杂的几何量化目标中,而无需训练,超越了现有的无监督方法,甚至接近了早期的全监督网络。
Jul, 2022
本文介绍了一种名为 PointCLIP V2 的 3D 开放世界学习器,它使用对比语言 - 图像预训练(CLIP)以及大规模语言模型来在 3D 点云数据上进行零 - shot 分类、部分分割和物体检测。PointCLIP V2 通过引入现实形状投影模块和自动设计更具描述性的 3D - 语义暗示,显著超越了 PointCLIP 的性能。
Nov, 2022