语言能理解深度吗?
通过训练一种紧凑的卷积解码器和一个名为 mirror 的微小可学习的嵌入矩阵作为文本编码器的静态提示,本研究展示了如何通过最小的调整将视觉 - 语言基础模型(如 CLIP)的先验知识推广到学习预训练期间具有挑战性的领域,提高了单目深度估计的性能,并通过对其后续框架进行时序深度一致性和空间连续性的实验证明了所提出的方法的有效性。
Feb, 2024
通过少样本学习方法来适应视觉语言模型进行单目深度估计,以平衡训练成本和泛化能力,并通过引入可学习的提示来改善性能。在只有一张训练图像的情况下,我们在 NYU V2 和 KITTI 数据集上进行了广泛的实验证明我们的方法在 MARE 方面的性能超过了之前的最先进方法 10.6%。
Nov, 2023
本研究提出一种名为 MULTI-CLIP 的 3D 预训练视觉语言模型,可有效提高现有 3D 视觉问答任务的表现并构建出具有良好结构的 3D 场景特征空间。
Jun, 2023
本文介绍了一种简单而有效的框架 CLIP2Scene,通过从二维预训练模型中转移知识到三维点云网络,利用语义和时空一致性正则化来预训练三维网络,实现了三维场景理解任务,并在多个数据集上进行了实验验证,其中包括无注释的 3D 语义分割,mIoU 在 nuScenes 和 ScanNet 数据集上分别达到了 20.8% 和 25.08%。
Jan, 2023
提出了一种新的基于对比学习的图像 - 深度预训练方法 CLIP2Point,通过加强深度特征捕捉视觉和文本特征,增强深度聚合不变性,以实现将 CLIP 知识转移到 3D 视觉,并在零样本和少样本分类任务上实现了最优结果。
Oct, 2022
本文提出了一种简单而有效的基线方法,将 CLIP 中的视觉语言知识在特征和输出层面上转移到点云编码器,从而在零样本点云语义分割中取得了显著的性能提升,并在无标注点云语义分割设置中取得了有希望的结果,展示了其在标签效率学习方面的巨大潜力。
Dec, 2023
本文介绍了一种新颖的 3D 预训练视觉 - 语言方法,将来自 2D 图像的语言知识和视觉概念应用于 3D 世界的理解,使用流行的 CLIP 模型代入编码的 3D 场景特征以评估其 3D 世界推理能力,并在 3D 视觉问答下游任务中证明了该方法的优越性和可解释性。
Apr, 2023
本文基于 Contrastive Vision-Language Pre-training (CLIP) 提出了一种对应 PointCloud 数据和 3D 文本分类的零样本和小样本学习模型 PointCLIP,并通过在 ModelNet10、ModelNet40 和 ScanObjectNN 数据集上的实验证明其有效性。
Dec, 2021
利用对比语言 - 视觉模型 CLIP,我们可以实现无需人工注释或额外训练的短语定位方法,其零样本短语定位性能优于现有无训练方法,并在某些情况下甚至超过了有监督的方法。
Apr, 2022
基于预训练视觉 - 语言模型的 Cascade-CLIP 方法,在零样本语义分割任务中通过引入一系列独立解码器,以级联方式将多层次的视觉特征与文本嵌入对齐,取得了优秀的性能。
Jun, 2024