本文提出一种名为 DepthCLIP 的方法,将基于对比学习的语言 - 图像预训练(CLIP)应用于零样本单目深度估计任务中,成功地将语义上的知识迁移到了更为复杂的几何量化目标中,而无需训练,超越了现有的无监督方法,甚至接近了早期的全监督网络。
Jul, 2022
通过少样本学习方法来适应视觉语言模型进行单目深度估计,以平衡训练成本和泛化能力,并通过引入可学习的提示来改善性能。在只有一张训练图像的情况下,我们在 NYU V2 和 KITTI 数据集上进行了广泛的实验证明我们的方法在 MARE 方面的性能超过了之前的最先进方法 10.6%。
Nov, 2023
本篇研究发现,使用自然语言的方式来训练 Contrastive Language-Image Pretraining (CLIP) 的文本编码器,能够更好地实现短语的理解,甚至能够在正确的提示下,显著优于流行的语言模型,有效地提升实体聚类和扩展任务的效果。
Oct, 2022
本文提出了一种框架,通过使用 CLIP 的预训练知识的隐式和显式方法来进行密集预测,是一种模型不可知的方法,可应用于任意密集预测系统和各种预训练视觉 Backbones,包括 CLIP 模型和 ImageNet 预训练模型,实证实验表明,我们的方法在语义分割,目标检测和实例分割任务上具有优越的性能。
Dec, 2021
简要概述:通过改进图像 - 文本数据集中标题的质量,有助于改善 CLIP 模型的视觉表示质量,并在密集预测视觉任务中取得显著的性能提升。
May, 2024
利用对比语言 - 视觉模型 CLIP,我们可以实现无需人工注释或额外训练的短语定位方法,其零样本短语定位性能优于现有无训练方法,并在某些情况下甚至超过了有监督的方法。
Apr, 2022
通过在 CLIP 训练中结合任务特定的视觉模型,利用伪标签来改进其视觉表示,该简单的设置在不妨碍现有性能的前提下,显著提高了不同视觉任务的效果。
Oct, 2023
通过使用预训练的视觉语言模型来提高视线估计的泛化能力,本研究提出了一种名为 CLIP-Gaze 的新型框架。该框架通过在语言描述中构建视线相关特征并将其与视线无关特征相区分,采用个性化上下文优化方法进行文本提示调整,并利用视线样本之间的关系改进视线估计模型的泛化能力。对四个跨领域评估结果表明,CLIP-Gaze 方法的性能优于现有方法。
Mar, 2024
本文介绍了一种用于训练轻量级 CLIP 模型的多级交互范式,包括改进的全局实例级对齐目标、基于放松二分匹配的令牌级对齐目标以及使用遮蔽语言建模的额外目标。实验结果表明,该方法在多个下游任务中实现了更高的性能。
Dec, 2023
该研究论文介绍了一种在文本 - 视频检索中学习视频语义表示的方法,通过将一个空间 - 时间上下文模块引入图像编码器,并通过辅助视频字幕目标进行训练,以提高视频帧的语义能力。在增强后的帧表示上使用简单的时序融合策略,取得了三个基准数据集(MSR-VTT,MSVD 和 LSMDC)的最先进性能。
Aug, 2023