CLIP 可以理解深度

Feb, 2024

CLIP Can Understand Depth

Dunam Kim, Seokju Lee

TL;DR通过训练一种紧凑的卷积解码器和一个名为 mirror 的微小可学习的嵌入矩阵作为文本编码器的静态提示，本研究展示了如何通过最小的调整将视觉 - 语言基础模型（如 CLIP）的先验知识推广到学习预训练期间具有挑战性的领域，提高了单目深度估计的性能，并通过对其后续框架进行时序深度一致性和空间连续性的实验证明了所提出的方法的有效性。

Abstract

Recent studies on generalizing clip for monocular depth estimation reveal that clip pre-trained on web-crawled data is inefficient for der

clip monocular depth estimation dense prediction vision-language models prior knowledge refinement

发现论文，激发创造

语言能理解深度吗？

本文提出一种名为 DepthCLIP 的方法，将基于对比学习的语言 - 图像预训练（CLIP）应用于零样本单目深度估计任务中，成功地将语义上的知识迁移到了更为复杂的几何量化目标中，而无需训练，超越了现有的无监督方法，甚至接近了早期的全监督网络。

Jul, 2022

学习适应 CLIP 进行少样本单目深度估计

通过少样本学习方法来适应视觉语言模型进行单目深度估计，以平衡训练成本和泛化能力，并通过引入可学习的提示来改善性能。在只有一张训练图像的情况下，我们在 NYU V2 和 KITTI 数据集上进行了广泛的实验证明我们的方法在 MARE 方面的性能超过了之前的最先进方法 10.6%。

Nov, 2023

CLIP 也可以理解文本：通过提示进行短语理解

本篇研究发现，使用自然语言的方式来训练 Contrastive Language-Image Pretraining (CLIP) 的文本编码器，能够更好地实现短语的理解，甚至能够在正确的提示下，显著优于流行的语言模型，有效地提升实体聚类和扩展任务的效果。

Oct, 2022

DenseCLIP: 基于语言引导的密集预测和上下文感知提示

本文提出了一种框架，通过使用 CLIP 的预训练知识的隐式和显式方法来进行密集预测，是一种模型不可知的方法，可应用于任意密集预测系统和各种预训练视觉 Backbones，包括 CLIP 模型和 ImageNet 预训练模型，实证实验表明，我们的方法在语义分割，目标检测和实例分割任务上具有优越的性能。

Dec, 2021

CLIP 与优质字幕：强大的视觉任务预训练

简要概述：通过改进图像 - 文本数据集中标题的质量，有助于改善 CLIP 模型的视觉表示质量，并在密集预测视觉任务中取得显著的性能提升。

May, 2024

无需进一步训练即可将 CLIP 用于短语定位

利用对比语言 - 视觉模型 CLIP，我们可以实现无需人工注释或额外训练的短语定位方法，其零样本短语定位性能优于现有无训练方法，并在某些情况下甚至超过了有监督的方法。

Apr, 2022

CLIP 融合模型库专家：视觉增强的伪监督

通过在 CLIP 训练中结合任务特定的视觉模型，利用伪标签来改进其视觉表示，该简单的设置在不妨碍现有性能的前提下，显著提高了不同视觉任务的效果。

Oct, 2023

CLIP-Gaze：基于视觉语言模型的通用注视估计

通过使用预训练的视觉语言模型来提高视线估计的泛化能力，本研究提出了一种名为 CLIP-Gaze 的新型框架。该框架通过在语言描述中构建视线相关特征并将其与视线无关特征相区分，采用个性化上下文优化方法进行文本提示调整，并利用视线样本之间的关系改进视线估计模型的泛化能力。对四个跨领域评估结果表明，CLIP-Gaze 方法的性能优于现有方法。

Mar, 2024

LightCLIP：轻量级视觉语言模型的多层交互学习

本文介绍了一种用于训练轻量级 CLIP 模型的多级交互范式，包括改进的全局实例级对齐目标、基于放松二分匹配的令牌级对齐目标以及使用遮蔽语言建模的额外目标。实验结果表明，该方法在多个下游任务中实现了更高的性能。

Dec, 2023

Prompt Switch: 高效的 CLIP 适应文本 - 视频检索

该研究论文介绍了一种在文本 - 视频检索中学习视频语义表示的方法，通过将一个空间 - 时间上下文模块引入图像编码器，并通过辅助视频字幕目标进行训练，以提高视频帧的语义能力。在增强后的帧表示上使用简单的时序融合策略，取得了三个基准数据集（MSR-VTT，MSVD 和 LSMDC）的最先进性能。

Aug, 2023