MV-CLIP：多视角 CLIP 用于零样本 3D 形状识别

Nov, 2023

MV-CLIP：多视角 CLIP 用于零样本 3D 形状识别

MV-CLIP: Multi-View CLIP for Zero-shot 3D Shape Recognition

Dan Song, Xinwei Fu, Weizhi Nie, Wenhui Li, Anan Liu

TL;DR通过视角选择和分层提示的策略，本研究旨在改进预训练模型在零样本三维形状识别中的信心，实现无需额外训练的令人印象深刻的分类准确性。

Abstract

Large-scale pre-trained models have demonstrated impressive performance in vision and language tasks within open-world scenarios. Due to the lack of comparable pre-trained models for 3D shapes, recent methods uti

pre-trained models 3d shape recognition view selection hierarchical prompts zero-shot classification

发现论文，激发创造

Multi-CLIP：针对 3D 场景中问答任务的对比视觉语言预训练

本研究提出一种名为 MULTI-CLIP 的 3D 预训练视觉语言模型，可有效提高现有 3D 视觉问答任务的表现并构建出具有良好结构的 3D 场景特征空间。

Jun, 2023

CLIP 引导的视觉 - 语言预训练用于 3D 场景问答

本文介绍了一种新颖的 3D 预训练视觉 - 语言方法，将来自 2D 图像的语言知识和视觉概念应用于 3D 世界的理解，使用流行的 CLIP 模型代入编码的 3D 场景特征以评估其 3D 世界推理能力，并在 3D 视觉问答下游任务中证明了该方法的优越性和可解释性。

Apr, 2023

Vita-CLIP: 基于多模态提示的视频和文本自适应 CLIP

本文介绍了一种多模态提示学习方案，该方案在单一统一的训练下平衡了监督和零样本学习的表现，并提出了视觉和文本方面的提示方案，通过保持预训练的骨干网络冻结，在保留现有的通用表示的同时实现了最先进的零样本效果。

Apr, 2023

PEVA-Net: 针对零 / 少样本多视角三维形状识别的提示增强的视图聚合网络

基于多视图表征，利用大型视觉语言模型 CLIP，探索零 / 少样本三维形状识别任务，并提出 Prompt-Enhanced View Aggregation Network (PEVA-Net) 以同时解决零 / 少样本场景下的三维形状识别问题，通过自我蒸馏方案显著提高了少样本学习效果。

Apr, 2024

PointCLIP: 基于 CLIP 的点云理解

本文基于 Contrastive Vision-Language Pre-training (CLIP) 提出了一种对应 PointCloud 数据和 3D 文本分类的零样本和小样本学习模型 PointCLIP，并通过在 ModelNet10、ModelNet40 和 ScanObjectNN 数据集上的实验证明其有效性。

Dec, 2021

CLIP2Scene: 基于 CLIP 的高效场景理解

本文介绍了一种简单而有效的框架 CLIP2Scene，通过从二维预训练模型中转移知识到三维点云网络，利用语义和时空一致性正则化来预训练三维网络，实现了三维场景理解任务，并在多个数据集上进行了实验验证，其中包括无注释的 3D 语义分割，mIoU 在 nuScenes 和 ScanNet 数据集上分别达到了 20.8% 和 25.08%。

Jan, 2023

将 CLIP 的知识转化为零样本点云语义分割

本文提出了一种简单而有效的基线方法，将 CLIP 中的视觉语言知识在特征和输出层面上转移到点云编码器，从而在零样本点云语义分割中取得了显著的性能提升，并在无标注点云语义分割设置中取得了有希望的结果，展示了其在标签效率学习方面的巨大潜力。

Dec, 2023

多多 CLIP：多视图图像下的高效三维理解

推出了 Duoduo CLIP 模型，用于从多视图图像中学习形状表示，相比基于点云的方法，它展示了更好的泛化性能、减少的 GPU 要求和训练时间，以及利用多帧对象的交叉视图注意力进一步提升的性能。多视图图像还提供了与基于点云方法相比更大的灵活性，在实际世界对象的图像分类和文本到形状检索中展示了更好的性能。

Jun, 2024

CLIP 在学习 3D 中的应用

通过两个无监督方法，我们提出了 $I2I$ 和 $(I2L)^2$，利用 CLIP 关于文本和 2D 数据的知识，计算两个 3D 样本之间的神经感知相似度，从而在没有文本描述的情况下增强对比的文本 - 图像 - 3D 对齐，通过自定义损失函数和硬负样本挖掘建立多模态对比流程，我们的方法在 3D 分类和跨模态检索基准测试方面取得了与之前方法相媲美甚至更优的性能，显著改善了图像到形状和形状到图像的检索效果。

Jun, 2024

Cascade-CLIP: 零样本语义分割的级联视觉 - 语言嵌入对齐

基于预训练视觉 - 语言模型的 Cascade-CLIP 方法，在零样本语义分割任务中通过引入一系列独立解码器，以级联方式将多层次的视觉特征与文本嵌入对齐，取得了优秀的性能。

Jun, 2024