基于预训练视觉 - 语言模型的 Cascade-CLIP 方法,在零样本语义分割任务中通过引入一系列独立解码器,以级联方式将多层次的视觉特征与文本嵌入对齐,取得了优秀的性能。
Jun, 2024
EZ-CLIP 是对 CLIP 的简单高效改进,通过引入时序视觉提示和新的学习目标,实现了在视频领域的零样本学习和基于视频动作识别的高效训练。
Dec, 2023
本研究提出了一种基于解释性的方法来解决在零样本学习和图像生成中使用 CLIP 时输入文本的稳定性问题,此方法通过增加一项损失项来确保 CLIP 关注所有相关的语义部分,并且可以提高图像识别率和生成图像的质量。同时,研究还展示了 CLIP 在一次性分类、对生成模型进行指导和有空间条件的基于文本的图像生成方面的新型应用。
Apr, 2022
使用 Contrastive Language-Image Pre-training (CLIP) 模型进行零样本异常检测,通过学习自然语言监督下的视觉表示,构建文本提示与全局图像级别表示之间的对应关系,采用训练自由的价值关注机制提取 CLIP 的内在局部标记以进行精确定位,设计一个统一的领域感知对比状态提示模板,通过测试时的自适应机制进一步优化异常定位结果。
Aug, 2023
本文提出一种名为 DepthCLIP 的方法,将基于对比学习的语言 - 图像预训练(CLIP)应用于零样本单目深度估计任务中,成功地将语义上的知识迁移到了更为复杂的几何量化目标中,而无需训练,超越了现有的无监督方法,甚至接近了早期的全监督网络。
Jul, 2022
通过引入双图增强 CLIP 方法,结合视觉 - 语言评分系统,对图像异常检测进行了增强,包括利用图像进行相互参考以增强推理过程的视觉环境,以及在测试时引入合成异常来提高定位能力。该方法充分利用了视觉 - 语言联合异常检测的潜力,并在各种数据集上展现了与当前最先进方法相媲美的性能。
May, 2024
通过研究表明,CLIPA 可以通过反比例尺度律以更低的计算成本实现高性能的训练,可以在 finetuning 阶段进一步减少计算需求,从而实现零样本 Imagenet 准确率的提高。
Jun, 2023
本研究提出了一种名为 Exp-CLIP 的新方法,通过从大型语言模型(LLMs)中转移任务知识来增强零样例人脸表情识别。利用预训练的视觉 - 语言编码器,通过投影头将初始联合视觉 - 语言空间映射到捕捉面部动作表示的空间,以此训练投影头进行零样例预测,同时采用基于文本指令的策略定制 LLM 知识。Exp-CLIP 在七个野外人脸表情数据集上实现了优于 CLIP 模型和其他若干大型视觉 - 语言模型(LVLMs)的零样例结果。
本文提出了一种简单而有效的基线方法,将 CLIP 中的视觉语言知识在特征和输出层面上转移到点云编码器,从而在零样本点云语义分割中取得了显著的性能提升,并在无标注点云语义分割设置中取得了有希望的结果,展示了其在标签效率学习方面的巨大潜力。
本文提出了一种基于 CLIP 的零样本语义分割方法 ZegCLIP,将其从图像级别扩展到像素级别,通过三种简单而有效的设计处理过拟合问题,具有更好的泛化能力和速度优势。
Dec, 2022