CLIP-Hand3D：基于上下文感知的 3D 手势姿态估计的利用

MMSep, 2023

CLIP-Hand3D：基于上下文感知的 3D 手势姿态估计的利用

CLIP-Hand3D: Exploiting 3D Hand Pose Estimation via Context-Aware Prompting

Shaoxiang Guo, Qing Cai, Lin Qi, Junyu Dong

TL;DR提出了一种称为 CLIP-Hand3D 的新颖的 3D 手势估计器，能够成功地将文本提示与不规则的详细姿势分布连接起来，并通过对姿势标签进行编码，形成相应的文本提示，并从中检索 3D 空间中的 21 个手关节，并对它们的空间分布进行编码以形成姿势感知特征，随后通过构建一个粗到细的网格回归器来最大化姿势 - 文本特征对的语义一致性，实验结果表明该模型相比使用相似规模骨干的方法，在几个公开手部基准测试中实现了更快的推断速度和最先进的性能。

Abstract

Contrastive Language-Image Pre-training (clip) starts to emerge in many computer vision tasks and has achieved promising performance. However, it remains underexplored whether clip can be generalized to 3D hand p

clip 3d hand pose estimation clip-hand3d pose-aware features contrastive learning

发现论文，激发创造

CLIPose: 预训练视觉语言知识下的类别级物体姿态估计

通过利用不同模态的丰富语义知识，以及多模态对齐和增强的方式，CLIPose 提出了一种新颖的 6D 姿态框架，以更好地实现对目标类别信息的学习和姿态估计，并在两个主流基准数据集上取得了最先进的性能。

Feb, 2024

CLIP2Scene: 基于 CLIP 的高效场景理解

本文介绍了一种简单而有效的框架 CLIP2Scene，通过从二维预训练模型中转移知识到三维点云网络，利用语义和时空一致性正则化来预训练三维网络，实现了三维场景理解任务，并在多个数据集上进行了实验验证，其中包括无注释的 3D 语义分割，mIoU 在 nuScenes 和 ScanNet 数据集上分别达到了 20.8% 和 25.08%。

Jan, 2023

Multi-CLIP：针对 3D 场景中问答任务的对比视觉语言预训练

本研究提出一种名为 MULTI-CLIP 的 3D 预训练视觉语言模型，可有效提高现有 3D 视觉问答任务的表现并构建出具有良好结构的 3D 场景特征空间。

Jun, 2023

GazeCLIP: 通过文本指导提升凝视估计能力

通过设计文本眼部协同学习框架 GazeCLIP，结合视觉注视方向的文本信号和 Contrastive Language-Image Pre-training (CLIP) 模型的优点，实现了先进的视觉注视估计准确性，并在三个具有挑战性的数据集上展示了其在性能方面的优势。

Dec, 2023

CLIP 引导的视觉 - 语言预训练用于 3D 场景问答

本文介绍了一种新颖的 3D 预训练视觉 - 语言方法，将来自 2D 图像的语言知识和视觉概念应用于 3D 世界的理解，使用流行的 CLIP 模型代入编码的 3D 场景特征以评估其 3D 世界推理能力，并在 3D 视觉问答下游任务中证明了该方法的优越性和可解释性。

Apr, 2023

CLIP 可以理解深度

通过训练一种紧凑的卷积解码器和一个名为 mirror 的微小可学习的嵌入矩阵作为文本编码器的静态提示，本研究展示了如何通过最小的调整将视觉 - 语言基础模型（如 CLIP）的先验知识推广到学习预训练期间具有挑战性的领域，提高了单目深度估计的性能，并通过对其后续框架进行时序深度一致性和空间连续性的实验证明了所提出的方法的有效性。

Feb, 2024

PointCLIP: 基于 CLIP 的点云理解

本文基于 Contrastive Vision-Language Pre-training (CLIP) 提出了一种对应 PointCloud 数据和 3D 文本分类的零样本和小样本学习模型 PointCLIP，并通过在 ModelNet10、ModelNet40 和 ScanObjectNN 数据集上的实验证明其有效性。

Dec, 2021

CLIP$^2$: 来自现实世界点云数据的对比语言 - 图像 - 点预训练

本文提出 Contrastive Language-Image-Point Cloud Pretraining (CLIP2) 方法，通过建立二三维场景对齐的实例文本 - 图像 - 点云代理和交叉模态对比学习策略，直接学习可迁移的三维点云表示，并在室内和室外场景中实验验证了其在零样本和少样本三维识别任务中的显著性能提升。

Mar, 2023

CLIP-Gaze：基于视觉语言模型的通用注视估计

通过使用预训练的视觉语言模型来提高视线估计的泛化能力，本研究提出了一种名为 CLIP-Gaze 的新型框架。该框架通过在语言描述中构建视线相关特征并将其与视线无关特征相区分，采用个性化上下文优化方法进行文本提示调整，并利用视线样本之间的关系改进视线估计模型的泛化能力。对四个跨领域评估结果表明，CLIP-Gaze 方法的性能优于现有方法。

Mar, 2024

MV-CLIP：多视角 CLIP 用于零样本 3D 形状识别

通过视角选择和分层提示的策略，本研究旨在改进预训练模型在零样本三维形状识别中的信心，实现无需额外训练的令人印象深刻的分类准确性。

Nov, 2023