多多 CLIP：多视图图像下的高效三维理解

Jun, 2024

多多 CLIP：多视图图像下的高效三维理解

Duoduo CLIP: Efficient 3D Understanding with Multi-View Images

Han-Hung Lee, Yiming Zhang, Angel X. Chang

TL;DR推出了 Duoduo CLIP 模型，用于从多视图图像中学习形状表示，相比基于点云的方法，它展示了更好的泛化性能、减少的 GPU 要求和训练时间，以及利用多帧对象的交叉视图注意力进一步提升的性能。多视图图像还提供了与基于点云方法相比更大的灵活性，在实际世界对象的图像分类和文本到形状检索中展示了更好的性能。

Abstract

We introduce duoduo clip, a model for 3d representation learning that learns shape encodings from multi-view images instead of point-cloud

duoduo clip 3d representation learning multi-view images point cloud methods cross-view attention

发现论文，激发创造

MV-CLIP：多视角 CLIP 用于零样本 3D 形状识别

通过视角选择和分层提示的策略，本研究旨在改进预训练模型在零样本三维形状识别中的信心，实现无需额外训练的令人印象深刻的分类准确性。

Nov, 2023

PointCLIP: 基于 CLIP 的点云理解

本文基于 Contrastive Vision-Language Pre-training (CLIP) 提出了一种对应 PointCloud 数据和 3D 文本分类的零样本和小样本学习模型 PointCLIP，并通过在 ModelNet10、ModelNet40 和 ScanObjectNN 数据集上的实验证明其有效性。

Dec, 2021

Multi-CLIP：针对 3D 场景中问答任务的对比视觉语言预训练

本研究提出一种名为 MULTI-CLIP 的 3D 预训练视觉语言模型，可有效提高现有 3D 视觉问答任务的表现并构建出具有良好结构的 3D 场景特征空间。

Jun, 2023

PointCLIP V2: 适应强大 3D 开放世界学习的 CLIP

本文介绍了一种名为 PointCLIP V2 的 3D 开放世界学习器，它使用对比语言 - 图像预训练（CLIP）以及大规模语言模型来在 3D 点云数据上进行零 - shot 分类、部分分割和物体检测。PointCLIP V2 通过引入现实形状投影模块和自动设计更具描述性的 3D - 语义暗示，显著超越了 PointCLIP 的性能。

Nov, 2022

CLIP2Scene: 基于 CLIP 的高效场景理解

本文介绍了一种简单而有效的框架 CLIP2Scene，通过从二维预训练模型中转移知识到三维点云网络，利用语义和时空一致性正则化来预训练三维网络，实现了三维场景理解任务，并在多个数据集上进行了实验验证，其中包括无注释的 3D 语义分割，mIoU 在 nuScenes 和 ScanNet 数据集上分别达到了 20.8% 和 25.08%。

Jan, 2023

CLIP$^2$: 来自现实世界点云数据的对比语言 - 图像 - 点预训练

本文提出 Contrastive Language-Image-Point Cloud Pretraining (CLIP2) 方法，通过建立二三维场景对齐的实例文本 - 图像 - 点云代理和交叉模态对比学习策略，直接学习可迁移的三维点云表示，并在室内和室外场景中实验验证了其在零样本和少样本三维识别任务中的显著性能提升。

Mar, 2023

CLIP2Point：使用图像深度预训练将 CLIP 转换为点云分类

提出了一种新的基于对比学习的图像 - 深度预训练方法 CLIP2Point，通过加强深度特征捕捉视觉和文本特征，增强深度聚合不变性，以实现将 CLIP 知识转移到 3D 视觉，并在零样本和少样本分类任务上实现了最优结果。

Oct, 2022

将 CLIP 的知识转化为零样本点云语义分割

本文提出了一种简单而有效的基线方法，将 CLIP 中的视觉语言知识在特征和输出层面上转移到点云编码器，从而在零样本点云语义分割中取得了显著的性能提升，并在无标注点云语义分割设置中取得了有希望的结果，展示了其在标签效率学习方面的巨大潜力。

Dec, 2023

跨模态自训练：无需标签的图像与点云对齐学习分类

通过使用 Cross-MoST 优化框架，结合 CLIP 等 2D 视觉语言模型，可以提高无需标签的零样本 3D 视觉模型的分类性能，并且实现图像和点云模态之间的跨模态知识交流。

Apr, 2024

在线嵌入多尺度 CLIP 特征于 3D 地图中

本研究介绍了一种新的方法，将多尺度的 CLIP (对比性语言 - 图像预训练) 特征在线嵌入到 3D 地图中，通过利用 CLIP，该方法克服了传统的词汇有限方法的限制，并将语义信息融入到生成的地图中，从而高效地计算和嵌入多尺度 CLIP 特征，并且通过将 CLIP 特征嵌入到结果地图中，实现了离线检索和实时对象搜索，进一步提出了一种基于地图方法的零样本对象 - 目标导航系统，并通过对象 - 目标导航、离线对象检索和多对象 - 目标导航在模拟环境和真实机器人实验中验证了其有效性，结果表明，我们的方法不仅在地图生成方面表现出更快的性能，而且在对象 - 目标导航任务的成功率方面也超过了现有的最先进方法。

Mar, 2024